Содержимое
Лекция по быстрым механизмам внимания в это воскресенье Главное препятствие на пути к быстрым трансформерам — квадратичный attention. В базовом варианте трансформеры довольно прожорливые как по времени, так и по памяти. Поэтому инженеры ищут способы ускорить attention. О некоторых из них мы расскажем на лекции в воскресенье. Обсудим быстрые механизмы внимания с точки зрения простых инженерных решений. Без математики тоже не обойдётся, но объясним всё простым языком и ответим на все вопросы, которые возникнут. Лекцию проведёт Саша Гончаренко: - CTO стартапа по ускорению моделей enot.ai - автор статей, в том числе про low-power/precision вычисления - спикер конференций (NAS,трансформеры,инференс на смартфоне) - хэдлайнер нашего курса по ускорению Саша расскажет про: - Group Query Attention — сделаем KV-кеш поменьше. - Pattern Attention — простой способ сократить вычисления с помощью паттерна - Linear Attention — ряд Тейлора is all you need 🗓Приходите 7 июля в 14:00 МСК! Ссылку на трансляцию выложим в воскресенье. Ставьте реакции, кто придёт 🔥 Пишите в комментариях свои вопросы — постараемся ответить на лекции! До встречи в эфире!⚡️