Содержимое
🚀 DroPE: как расширить контекст LLM, просто “выкинув” позиционные эмбеддинги (механизм, который говорит трансформеру в каком порядке идут токены.) Sakana AI выпустили DroPE - метод, который позволяет увеличить контекст у уже предобученных LLM без привычных адских затрат на long-context fine-tuning. Идея звучит как ересь, но результаты говорят об обратном . 💡 Главный инсайт : Позиционные эмбеддинги (например RoPE) жизненно важны, чтобы модель нормально обучилась и сошлась.Но после обучения они же становятся главным ограничителем, из-за которого модель плохо переносит контекст длиннее, чем видела на трейне. То есть: - для обучения - нужны - для генерализации на очень длинные последовательности - мешают 📌 Решение DroPE Авторы предлагают относиться к позиционным эмбеддингам как к временным “строительным лесам”: - в pretraining они дают стабильность - после обучения их можно сбросить (drop) - и получить zero-shot length extrapolation (модель начинает заметно лучше работать на длинах, которых не видела) Большие контексты нужны пользователям : - огромные code diff и монорепы - юридические контракты на сотни страниц - аналитика логов и документов без разбиения на чанки Именно тут многие стандартные модели начинают “ломаться” просто потому что контекст слишком длинный. Результаты: DroPE проверили на разных open-source моделях: - калибровка занимает <1% бюджета от исходного pretraining - а качество на long-context задачах заметно лучше популярных подходов - сильные результаты на LongBench и RULER Позиционка нужна, чтобы обучить модель, но может быть лишней, чтобы мыслить длинно Возможно RoPE - не “обязательная часть архитектуры”, а просто инструмент для стабильного обучения. 📄 Paper: arxiv.org/abs/2512.12167 🔧 Code: github.com/SakanaAI/DroPE @ai_machinelearning_big_data #sakana#ai#ml#opensource