Содержимое
🔥 Сейчас проходит ICML 2025 — одна из главных конференций по машинному обучению. Команда AI VK всю неделю делится обзорами самых интересных работ. 📌 Сегодня в центре внимания — трансформерная архитектура нового поколения: быстрая, простая и без softmax. Авторы статьи *“MatMuls are Enough”* предлагают кардинально упрощённую модель, в которой механизм внимания сводится к чистым матричным перемножениям без нелинейностей, dropout и маскировок. 🔧 В архитектуре: ▪️ Удалён softmax — вообще ничего не добавлено взамен ▪️ Вместо нескольких голов внимания — одна большая ▪️ Упрощены нормализации и убраны residual-соединения ▪️ Всё написано на чистом PyTorch, без CUDA-оптимизаций 📈 Результат — линейная сложность по длине текста, отличная переносимость между устройствами и SOTA на GLUE и Long Range Arena. Честно говоря, очень достойный претендент на главную инженерную идею ICML. @ai_machinelearning_big_data