TGTGInsighttelegram intelligenceLIVE / telegram public index
Back to channels
AI[ex]Time avatar

TGINSIGHT CHAT

AI[ex]Time

@AIexTime

Technologies

LLM & Agents research: environments, post-train, RL, inference @alex_golubev13

Subscribers2,770Current channel subscribers
Tracked posts165Indexed post count
Recent reach47,650Sum of recent post views
Recent posts

Recent posts

Page 2 of 14 · 165 posts

Posted Feb 13

Как стать топ-1% в век ИИ Если вам от 14 до 24 и вы хотите быть супер успешным в пост-ИИ экономике, где большинство рутинных и офисных профессий заменены агентами, то у меня есть два простых, но очень важных совета: 1. Попросите родителей или сэкономьте на сладостях $100 в месяц, купите подписку Max у Антропика (бонус поинты: купите за $200) и делайте что угодно в Claude code чтобы потратить >80% недельного бюджета токенов КАЖДУЮ НЕДЕЛЮ. Не важно что. Спросите Клода «а что такого классного я могу сделать?», создайте пранк, фильм, игру, книгу, приложение которое за вас решает домашку, общается за вас в Тиндере. Это не про программирование, а про умение на лету создавать и управлять армией сверхумных агентов. 2. Безжалостно ищите самых энергичных и умных людей в той сфере, которая вам интересна. Поступите в крутой вуз (знания не так важны, но важна тусовка), вступите в элитный дискорд, запишитесь на конфу или митап. Ибо чем умнее будет ИИ и чем больше он сможет делать «обычной работы», тем ценнее будут самые необычные, талантливые, exceptional люди и отношени между ними. Я жутко завидую и радуюсь детям, своим и вообще, потому что возможностей творить и раскрываться у них больше, чем когда-либо на планете.

1,440 views

Posted Feb 13

Я уже не знаю, как отвечать в последнее время на вопросы, что ботать на первых курсах, чтобы заниматься ML/LLM и тд через несколько лет, или как искать работу потом. Но этот общий совет мне кажется makes sense.

1,560 views

Posted Jan 25

А теперь угадайте, сколько подач на ICML 2026 > 34k 💀

2,500 views

Posted Jan 12

За последнее время пришлось углубиться в спекулятивный декодинг и прочитать с десяток статей. Некоторыми из них, которые показались мне интересными и при этом не базовыми, захотелось поделиться: GRIFFIN: Effective Token Alignment for Faster Speculative Decoding. Во время обучения драфт моделей, у нас происходит training-inference misalignment, потому что во время трейна все токены получены из таргетной модели, в то время как во время инференса токены получаются из драфт модели авторегресионно. Статья предлагает, на мой взгляд, немного костыльный способ борьбы с этим, но сама проблема – интересная, и про нее кажется не так много пишут. Block Verification Accelerates Speculative Decoding. Просто очень классный взгляд на процесс верификации, когда от rejection sampling на уровне каждого токена, мы переходим на уровень целого предсказанного блока. DistillSpec: Improving Speculative Decoding via Knowledge Distillation. Изучает различные виды divergences для дистилляции таргетной модели в драфтерную, все-таки KL loss – не единственный вариант учить такие модели. FR-Spec: Accelerating Large-Vocabulary Language Models via Frequency-Ranked Speculative Sampling. Тк драфт модели сейчас делаются довольно маленькими, language head занимает существенную часть времени во время инференса. Авторы предлагают делать словарь намного меньше, убирая нечастотные токены и для драфтера использовать такие обрубленные словари. Кстати, EAGLE3, которые выходят в опенсорс, часто используют уже эту оптимизацию. Например, популярная коллекция от RedHat. Speculative Diffusion Decoding: Accelerating Language Generation through Diffusion. Очень интересное направление, чтобы для драфтинга использовать диффузионные модели, которые на первый взгляд очень хорошо ложатся в данную задачу, но несут много дополнительных вопросов. По этой статье можно найти еще серию интересных связанных, и уже есть продолжение работы – SpecDiff2. RADAR: Accelerating Large Language Model Inference With RL-Based Dynamic Draft Trees. На инференсе драфт токены уже давно не предсказываются одной цепочкой. Вместо этого генерируется сразу дерево вариантов, которое потом проверяется основной моделью. Эта тема уходит отдельно еще в оптимизационную составляющую, тк чтобы эффективно пропустить все цепочки из дерева за один forward pass модели, нужно использовать tree mask attention. Но здесь в работе изучается сам процесс построения деревьев и применение RL к этой задаче. В свое время Илья давал ссылки на интересные статьи с ACL25, часть1 и часть2. Для тех, кому интересно разобраться с нуля, статьи, с которых можно начать: Оригинальная статья, Medusa, Eagle 1, Eagle 2, Eagle 3. Если что-то знаете из того, что стоит почитать по теме, присылайте!

3,380 views

Posted Dec 23

В рамках одного из проектов, где мы строим scaffolding-agnostic инфраструктуру, накопилось достаточно большое кол-во агентских траекторий, которые мы посчитали будет полезно выложить. И сразу же возник вопрос: а насколько можно прокачать модель в SWE, сделав простой rejection fine-tuning на траекториях Qwen3-480B-Coder. Оказалось, что очень даже неплохо – тянет на сильный бейзлайн в других экспериментах. Собрав множество деталей и багов запуска с OpenHands, сделали еще небольшой чеклист, как репортить замеры, чтобы было воспроизводимо – репортов вида openhands maxiter=100 недостаточно 😕️️️️️️ А главные цифры можно увидеть у Ибрагима 👆

2,460 views

Posted Dec 23

🎄Релизим 67 074 траектории Qwen3-Coder с OpenHands + 2 RFT чекпоинта. > Мы выкладываем: 67 000+ траекторий по 3 800 решенным задачам в 1 800+ Python репозиториях. > Примерно в 3 раза больше успешных траекторий и в 1.5 раза больше репозиториев, чем в нашем прошлом датасете. > Траектории длинные: в среднем 64 шага, до 100 шагов и контекст до 131k токенов. > RFT на этих данных, SWE-bench Verified: Qwen3-30B-Instruct: 25.7% → 50.3% Pass@1. Qwen3-235B-Instruct: 46.2% → 61.7% Pass@1. Также сильный рост на SWE-rebench September (цифры в блог посте) > Мы сделали много эвалов. прогнали OpenHands с лимитом 100 и 500 шагов. Запускаем на SWE-bench Verified и сентябрьском SWE-rebench. > Мы отдельно проверяем тесты, которые пишет модель. Считаем, как часто тесты корректны. Проверяем, как часто финальный патч модели проходит ее собственные тесты. В итоге получаем пул данных в том числе для обучения верифаеров. Полностью Permissive License Датасет и модели:https://huggingface.co/collections/nebius/openhands-trajectories Подробный блогпост: https://nebius.com/blog/posts/openhands-trajectories-with-qwen3-coder-480b Пост в x: https://x.com/ibragim_bad/status/2003423706861936856 P.S. Прошу поддержать пост в x, если у вас есть аккаунт!

1,770 views

Posted Dec 20

Фича Gemini 3 Pro, про которую я говорил в посте выше. Прикрепляя ссылку на ютуб, оно нативно подается на вход и пишет число токенов, которое тратится. На 2-2.5 часа уходит примерно 700-800к токенов, то есть близко к пределу в 1M. Очень нравится разгребать видео, которые давно лежат и вроде хотелось бы посмотреть, но не так сильно, чтобы тратить столько времени.

2,040 views

Posted Dec 17

Сегодняшний апдейт лидерборда swe-rebench мне кажется одним из самых интересных за все время, по нескольким причинам: 1. Добавили целый ряд моделей: gpt-5.2, gpt-5.1-codex-max, Gemini 3 Pro, DeepSeek-v3.2, Devstral2. Все модели от openai теперь прогоняются через responses API с сохранением ризонинг блоков. И все модели по-своему интересны: – gpt-5.2 прыгнула на самый верх и теперь соревнуется с Sonnet/Opus 4.5. А главное посмотрите на кол-ве потраченных токенов в среднем на задачу – почти как gpt5-minimal. – gpt-5.1-codex-max сильно лучше gpt5-codex, но на фоне других моделей от openai не так уж выделяется. – Gemini 3 Pro – огромный скачок в агентских задачах по сравнению с 2.5 Pro. Оффтоп, но это моя любимая модель на текущий момент в бытовом пользовании, не могу народоваться фиче с нативной обработкой видео. – DeepSeek-v3.2 – новая сота в open-source, но также и сота по потреблению токенов 💀 – Devstral2 выглядит очень неплохо. Вроде как незаметный релиз от Mistral врывается в топ open-source моделей. – Не забывайте, что к ранжированию нужно относиться осторожно, задач не так много и доля случайности все еще большая, даже несмотря на усреднение по 5 ранам. Но общая картина думаю понятна хорошо. 2. Добавили Claude Code как reference сота агента 🎉 Режим запуска указан в инсайтах. 3. Для прозрачности Cost per Problem, добавили колонку Cached Tokens, как минимум для понимания, включен у модели кэшинг или нет.

8,450 views

Posted Dec 17

1,670 views

Posted Nov 25

Я больше не пишу прям про каждый релиз swe-rebench, просто знайте, что каждый месяц он стабильно обновляется и во вкладке Insights есть какие-то интересные наблюдения. Но сейчас напишу – мы только что добавили Opus 4.5, чтобы наверняка проверить, что Anthropic вчера не соврали. И действительно, у нас он тоже занимает теперь первое место. Обратите еще внимание, как упала цена и потребление токенов по сравнению с Opus4 😘 Gemini 3 Pro на подходе.

9,660 views

Posted Nov 21

Недавно удалось чуть-чуть погрузиться в Tinker (спасибо коллеге, который сделал обзор). Помимо общего положительного впечатления, одна вещь в дизайне платформы мне особенно понравилась – имплементация поддержки кастомных лосс-функций. Пару слов о Tinker – это API, которым вы пользуетесь для обучения LLM. Вы пишете скрипт с подгрузкой данных и логикой обучения (включая лосс и эвалы), но весь инференс и обучение (sample, forward, backward, save_model) происходят на серверах Thinking Machines. То есть вы можете запустить скрипт на локальном компьютере с CPU и хорошим интернетом и на нем тюнить DeepSeek. Точнее, не весь DeepSeek, а только лоры. На это есть любопытная причина: для высокой утилизации GPU нужны большие батчи, особенно для MoE, а с лорами можно эффективно инференсить все еще одну LLM для пользователей с разными тюнами. Небольшой тред от одного из разработчиков Tinker в эту же тему. Вот пример скрипта, как может выглядеть обучение SFT. Так вот по умолчанию Tinker дает доступ к трем лоссам: cross_entropy, importance_sampling и ppo, но вы можете заимплементировать любой свой, который будет принимать на вход (data: tensor, logprobs: tensor). Первое, что ожидаешь увидеть в таком случае – пользовательский код будет сериализовываться и отправляться по сети исполняться на сервере. Но здесь появляется очень элегантное, на мой взгляд, решение: forward_backward_custom. Forward_pass с сервера возвращает вам логпробы, по которым вы локально считаете лосс и производные, но только dLoss/dLogprobs (весов-то у вас нет). Далее, при вызове backward, сервер еще раз делает forward, считает новый лосс sum(logprobs * dLoss/dLogprobs) и по нему апдейтит веса модели. Цена за это – два forward pass’а и, как следствие, 1.5x FLOPS на шаг. Но зато Тинкеру не нужно вообще никак связываться со сторонним кодом. Другое интересное архитектурное решение – это Clock Cycles, но об этом возможно напишу в другой раз.

11,000 views

Posted Nov 21

1,720 views
1234•••10•••1314