Post #703

@MachineLearningResearch

AML

Views401Post view count

PostedFeb 2602/26/2026, 09:41 AM

Post content

Google DeepMind опубликовали две работы(тут и тут), которые говорят о том, как работает обучение языковых моделей Такие модели как GPT-5 и Gemini 2.5 Pro плохо адаптируются в процессе диалога Это системное следствие того, как всё обучение построено на статичных текстах Модель хорошо запоминает, но не умеет учиться в моменте Исследователи назвали это отсутствием in-context plasticity - способности менять мышление в ответ на новую информацию прямо внутри разговора DeepMind превратили обычные задачи (математика, код) в педагогические диалоги, где одна копия модели играет роль учителя, а другая — студента Ключевая идея - учителю не нужно быть умнее Достаточно знать правильный ответ Асимметрия информации заменяет асимметрию интеллекта После такого обучения через RL происходит кое-что неожиданное: Gemini 2.5 Flash догоняет по адаптивности Gemini 2.5 Pro Но если обучить модель также предсказывать реплики учителя, она начинает сама себя критиковать и исправлять Без внешней помощи И результат превосходит работу с реальным учителем Суть - не учить ответам, а учить алгоритму обучения