Содержимое
MoH: Multi-Head Attention as Mixture-of-Head Attention Mixture-of-Head Attention — апдейт архитектуры Multi-Head Attention, направленный на ускорение без потери точности. Основная идея здесь — рассматривать attention heads как «экспертов» в Mixture-of-Experts. Это даёт возможность использовать не все головы, а выбирать самые подходящие под каждый токен. Архитектура Mixture-of-Head Attention (MoH) сохранила основную структуру Multi-Head Attention, но включила пару значимых улучшений: 1️⃣ замена обычного суммирования на взвешенное для лучшей адаптации набора голов под данные 2️⃣ добавление механизма выбора релевантных attention heads под каждый токен для снижения вычислительной нагрузки и ускорения инференса без изменения числа параметров При этом MoH не только работает быстрее и может заменить Multi-Head Attention в предобученной модели, но и позволяет дообучить модель с ним и получить бонус к качеству за счёт увеличения специализации atthention heads. Подробнее читайте в нашей статье: https://deepschool-pro.notion.site/MoH-Multi-Head-Attention-as-Mixture-of-Head-Attention-1a5640e53434803bb7e4f14df0b18e2e?pvs=4