TGTGInsightаналитика telegramLIVE / telegram public index
К списку каналов
Machinelearning avatar

TGINSIGHT CHAT

Machinelearning

@ai_machinelearning_big_data

Технологии

Погружаемся в машинное обучение и Data Science Показываем как запускать любые LLm на пальцах. По всем вопросам - @haarrp @itchannels_telegram -🔥best channels Реестр РКН: clck.ru/3Fmqri

Подписчики31.3万Текущее число подписчиков
Постов1,009Проиндексировано постов
Охват32,600Просмотры последних постов
Последние посты

Последние посты

Тег: #thinkingmachines · 1 постов

当前筛选 #thinkingmachines清除筛选

Опубликован 27 окт.

🧠Thinking Machines представила - On-Policy Distillation Исследователи из Thinking Machines Lab предложили метод, который может изменить то, как обучаются языковые модели. Он называется on-policy distillation - и учит ИИ не просто копировать, а думать и анализировать свои ошибки. Обычно «дистилляция» работает просто: большая модель-учитель показывает ответы, а маленькая модель-ученик запоминает их. Это похоже на заучивание по шпаргалке - быстро, но без понимания сути. В новом подходе всё иначе. Ученик сам решает задачи, а учитель оценивает и направляет - объясняет, где логика сбоит и как улучшить рассуждение. Таким образом, меньшая модель перенимает не только знания, но и способ мышления более крупной модели. Что показали результаты Эксперименты проводились на задачах математического и логического рассуждения, где важно не просто выдать правильный ответ, а выстроить цепочку шагов. Результаты впечатляют: Модель-ученик после обучения с on-policy distillation показала почти ту же точность, что и гораздо более крупная модель-учитель. При этом вычислительные затраты снизились в несколько раз, делая модель заметно эффективнее и дешевле. Кроме того, ученик стал лучше понимать собственные ошибки, что повысило устойчивость и надёжность при решении новых, незнакомых задач. Почему это важно On-policy distillation решает ключевую проблему традиционных методов - отсутствие адаптивности. Модель теперь учится на собственных шагах, как человек, — экспериментирует, ошибается, корректирует поведение и растёт. Уникальность подхода - в балансе между качеством RL и экономичностью KD. Это реальная схема, где маленькая модель учится “в поле” (реагируя на собственные действия), но без дорогих RL-запусков и сложных reward-моделей. Это не новый метод обучения, а новая инженерная формула, которая позволяет дешевле «учить» компактные модели, ведущие себя как большие. Это открывает путь к созданию компактных LLM нового поколения, которые рассуждают почти как топовые модели, но стоят в разы дешевле. Такие модели можно запускать на edge-устройствах, в автономных агентах и локальных сервисах, где важны скорость, приватность и энергоэффективность. 🟠Подробнее: thinkingmachines.ai/blog/on-policy-distillation/ @ai_machinelearning_big_data #ThinkingMachines#llm#ml

32,600 views