TGTGInsighttelegram intelligenceLIVE / telegram public index
← Machinelearning
Machinelearning avatar

TGINSIGHT POST

Post #8152

@ai_machinelearning_big_data

Machinelearning

Views22,600Post view count
PostedJul 2807/28/2025, 12:40 PM
Post content

Post content

🖥Как выжать максимум из маленькой LLM? Ответ — долго и грамотно учить. NVIDIA показала, как 1.5B-модель можно раскачать до топовых результатов в логике, математике, коду и STEM-задачам — без увеличения параметров модели. 📈 Результат после месяцев обучения: +55% к логическим задачам +14.7% к математике +13.9% к коду +25.1% к сложным STEM-вопросам 🛠 Как они это сделали: – Использовали RL (обучение с подкреплением) на 5 типах задач, включая 40K примеров по математике и 24K по программированию – Все ответы проверялись автоматически в "песочнице", которая оценивает, правильный ли результат – Применили улучшенную стратегию обучения — *Group Relative Policy Optimization* — и добавили несколько хитрых трюков: 🟢Decoupled clipping — обычно модель "обрезает" редкие и неожиданные токены, чтобы не уходить слишком в сторону от главного. Но здесь этот механизм ослаблен: модель может чаще выбирать нестандартные слова, что помогает ей находить неожиданные, но правильные решения. 🟢Dynamic sampling — модель *не тратит время* на лишком лёгкие задачи. Она пропускает такие примеры и фокусируется на тех, где действительно можно чему-то научиться. 🟢Маленький KL-штраф (0.0001) — KL показывает, насколько поведение модели отклоняется от старой версии (эталона). Здесь штраф почти нулевой, чтобы не мешать экспериментам, но всё ещё предотвращать полное "сумасшествие" модели. 🟢Сброс каждые 400 шагов — модель регулярно сбрасывает и policy (поведение), и оптимизатор. Это как регулярная перезагрузка — модель забывает вредные привычки, но сохраняет полезные навыки. 🟢Температура 1.2 и длинный контекст (8K → 16K) — высокая температура делает поведение модели более разнообразным. А длинный контекст помогает учитывать больше информации при генерации ответа. Все эти приёмы помогли сохранить интерес модели к поиску новых решений, а не скатываться к заученным паттернам. Итог: модель не "застывает", а продолжает исследовать — и выдает стабильный рост качества без расширения архитектуры. 📄 Почитать статью полностью : arxiv.org/abs/2507.12507 @ai_machinelearning_big_data #ml#ai#nvidia