Post content
Cтатья от MIT про дообучение моделей после деплоя Фанфэкт: некоторые из авторов работают в OpenAI, так что читаем внимательно Подход красиво назвали тюленем: SEAL – Self-Adapting Language Models Суть тюленя в том, что модель учится извлекать из условных чатов информацию в таком виде, которая дообучит ее лучше всего Звучит немного запутанно, поэтому разбираемся: 1. Модель получает на вход некоторый контекст и извлекает из него так называемые self-edit (SE) Это структура, на которой модель дальше будет дообучаться (например, список следствий/импликаций из абзаца) 2. Таких SE генерируется много, а затем по каждому из них мы делаем мини-файнтюн и смотрим, какие SE улучшили знания модели лучше всего Тестирование проходит на той же downstream-задаче (например, вопросах по абзацу без подсказки-абзаца в контексте) 3. Чем лучше SE обучил модель, тем больший reward он получает Далее политика генерации self-edit обновляется так, чтобы в следующий раз SE были более и полезными То есть модель как бы учиться выбирать наилучшую процедуру адаптации для самой себя Красиво, да? И работает неплохо Из примера в статье: на бенчмарке SQuAD тюлень улучшил Qwen2.5-7B аж на 15 процентных пунктов В сравнении, base model + дообучение на синтетике от сильной GPT-4.1 дает результат на пару процентов меньше, хотя разница в размере моделей «учителей» огромна Есть, конечно, и парочка НО Например: – Это дорого Одна оценка self-edit занимает примерно 30–45 секунд 750 итераций – это 6 часов на двух H100 Авторы предлагают это немного сгладить, применяя вместо мини-файнтюнингов Proxy reward, когда SE оценивает другая LLM Это уже не так интересно, и метрики чуть хуже, но как вариант – Для тестов требуется разметка Хотя тут, опять же, можно генерировать – Модели показывают деградацию на прошлых задачах по мере числа обновлений Это частично лечится reward shaping, но полностью проблема не исчезает Статья полностью здесь -> https://arxiv.org/abs/2506.10943