Post content
Фреймворк, где LLM улучшает способности к поиску и рассуждению полностью автономно без единого размеченного примера GitHub Размеченные данные - узкое место в обучении агентов Если сложные рассуждающие способности могут возникать из самоэволюции, это меняет экономику создания Ml-систем Как это работает? Из одной базовой модели создаются 2 агента: - Proposer генерирует вопросы, - Solver на них отвечает Оба используют внешний поисковик Ключевой трюк — награда за «правильную» сложность: если Solver решает всё или ничего, Proposer не получает награды Только частичный успех засчитывается Это создаёт автоматический учебный план с постепенным усложнением По мере роста Solver простые вопросы обесцениваются → Proposer вынужден генерировать сложнее → Solver продолжает учиться Замкнутый цикл самоулучшения Результаты: На простых задачах (один поисковый шаг) 3B-модель превосходит supervised-baseline на 7-23 % На сложных многошаговых — 7B достигает ~90 % качества полностью supervised-агентов И это без единого человеческого примера в обучении Что ограничивает? После 2-3 итераций наступает плато Крупные модели менее стабильны при обучении Пока не решена проблема reward hacking при длительной самоэволюции