TGTGInsightаналитика telegramLIVE / telegram public index
К списку каналов
Machinelearning avatar

TGINSIGHT CHAT

Machinelearning

@ai_machinelearning_big_data

Технологии

Погружаемся в машинное обучение и Data Science Показываем как запускать любые LLm на пальцах. По всем вопросам - @haarrp @itchannels_telegram -🔥best channels Реестр РКН: clck.ru/3Fmqri

Подписчики31.3万Текущее число подписчиков
Постов1,009Проиндексировано постов
Охват65,100Просмотры последних постов
Последние посты

Последние посты

Тег: #sakana · 2 постов

当前筛选 #sakana清除筛选

Опубликован 12 янв.

🚀 DroPE: как расширить контекст LLM, просто “выкинув” позиционные эмбеддинги (механизм, который говорит трансформеру в каком порядке идут токены.) Sakana AI выпустили DroPE - метод, который позволяет увеличить контекст у уже предобученных LLM без привычных адских затрат на long-context fine-tuning. Идея звучит как ересь, но результаты говорят об обратном . 💡 Главный инсайт : Позиционные эмбеддинги (например RoPE) жизненно важны, чтобы модель нормально обучилась и сошлась.Но после обучения они же становятся главным ограничителем, из-за которого модель плохо переносит контекст длиннее, чем видела на трейне. То есть: - для обучения - нужны - для генерализации на очень длинные последовательности - мешают 📌 Решение DroPE Авторы предлагают относиться к позиционным эмбеддингам как к временным “строительным лесам”: - в pretraining они дают стабильность - после обучения их можно сбросить (drop) - и получить zero-shot length extrapolation (модель начинает заметно лучше работать на длинах, которых не видела) Большие контексты нужны пользователям : - огромные code diff и монорепы - юридические контракты на сотни страниц - аналитика логов и документов без разбиения на чанки Именно тут многие стандартные модели начинают “ломаться” просто потому что контекст слишком длинный. Результаты: DroPE проверили на разных open-source моделях: - калибровка занимает <1% бюджета от исходного pretraining - а качество на long-context задачах заметно лучше популярных подходов - сильные результаты на LongBench и RULER Позиционка нужна, чтобы обучить модель, но может быть лишней, чтобы мыслить длинно Возможно RoPE - не “обязательная часть архитектуры”, а просто инструмент для стабильного обучения. 📄 Paper: arxiv.org/abs/2512.12167 🔧 Code: github.com/SakanaAI/DroPE @ai_machinelearning_big_data #sakana#ai#ml#opensource

36,700 views

Опубликован 11 нояб.

💡GPT-5 и Sudoku-Bench, почему новые модели всё ещё ломаются на судоку Sakana AI представили Sudoku-Bench - набор классических и продвинутых судоку-задач, который проверяет не память модели, а её способность рассуждать, понимать новые правила и держать всю логику пазла в голове. Они протестировали современные модели, включая GPT-5 и методы тонкой настройки вроде GRPO и thought-cloning. Главное: GPT-5 стала первой моделью, которая уверенно решает часть сложных задач и показала около 33 % успешных решений на наборе challenge_100. Ранее ни одна LLM не справлялась даже с обычным 9×9. Но треть решённых - это всё ещё мало: большая часть задач остаётся нерешённой, особенно варианты с необычными правилами. Ключевая трудность в том, что такие головоломки требуют не просто следовать правилам, а уметь понять незнакомые ограничения, найти стратегию «входа», просчитывать ходы вперёд и сохранять глобальную согласованность. Модели часто делают правильные локальные шаги, но теряют общую структуру. GRPO и thought-cloning дают улучшения, но пока не позволяют моделям преодолеть сложные варианты. Даже с обучением на человеческих примерах ИИ быстро «запутывается» в длинных логических цепочках. Sudoku-Bench - это тест на реальное рассуждение, а не на подбор паттернов. Он проверяет пространственное мышление, логику, способность адаптироваться и работать с новыми правилами. Прогресс на таких задачах - показатель движения к более структурному и осмысленному ИИ. Авторы предлагают Sudoku-Bench как стандарт, по которому можно судить, насколько модели действительно умеют думать. Для будущих систем важны не просто большие параметры, а развитая логика, планирование и умение работать с новыми структурами задач. @ai_machinelearning_big_data #ai#ml#sakana

28,400 views