Recent posts
Page 1 of 9 · 105 posts
Posted Dec 1
Часть 2. Да даже возьмём нашу речь, попробуйте назвать хотя бы 20 рандомных слов подряд - где-то после десятого вы обязательно запнётесь и начнёте задумываться над следующим словом или набором слов. А если попытаетесь поймать себя в этот момент на мысли - обнаружите, что мозг пытается найти следующую ассоциацию (не напоминает, случаем, скрытые активации MLP?..). Начиная что-то говорить, мы не знаем, как закончится предложение - слова подбираются по ходу Более того, можно окинуть взором нашу способность обучения. Да, мы учимся очень быстро, генерализируемся тоже, но эти процессы в основном происходят во сне. Илья приводил в пример кейс с человеком, у которого атрофировался эмоциональный центр, и тот каким-то образом больше не мог принять ни одного решения, даже самого простого вроде того, какие носки сегодня надеть. Примерно так же и со способностью учиться - внутри дня мы можем подхватывать новые навыки и моментально применять их, но консолидация и настоящее "обучение" происходит во сне. Примерно так же, как мы постоянно SFTшим модели на новые домены. И ещё сюда же, в быстрой и медленной фазе сна (REM/NREM) наш мозг симулирует ситуации и то, как он на это будет реагировать, или пытается "прожить" то, что доставляет переживания и стресс - чем вам не RL?.. Во сне происходит переход от сырых впечатлений к устойчивым знаниям и эмоциональная регуляция и объединение идей, что делает нас нами. А в быстром сне мозг позволяет себе блуждать по слабым и неочевидным ассоциативным связям, создавая абсурдные и творческие комбинации - наш внутренний Monte Carlo Tree Search. Тут кстати стоит сделать дисклеймер, поскольку сомнология - вещь немного спорная, потому что мы до сих пор не знаем точно, для чего нам сны, тут я стараюсь говорить последнее, что вообще читал по этим темам... Так что, хоть трансформеры и выполняют авторегрессионную задачу, обучаются в несколько фаз, но мы с вами ушли не настолько далеко, если посмотреть на людей с точки зрения этих ваших эмэль. Кто знает, что ещё придумаем в будущем?)
Posted Dec 1
Посмотрел тут интервью Ильи Суцкевера (и почитал комменты заодно) Прикольно, пару интересных мыслей есть, но в общем - как по мне, много воды и того, что уже всем давно известно. Но некоторые тейки и комменты людей под постами пабликов сподвигли меня на очередной дамп регистра мыслей (как оно чаще всего и происходит, в принципе) 🫨 Можно даже дать такое громкое название посту - мы ближе, чем кажется (часть 1) И да, речь тут пойдет не совсем про AGI. Я постоянно вижу комментарии под роликами/постами с такими абстрактными темами, которые звучат примерно как «Ну и что, LLM ведь просто глупая математическая система, предсказывающая следующее слово» Уж не знаю, от кого это пошло, но те, кто о таком говорят, видимо, недостаточно широко смотрят на происходящее. И не поймите неправильно, правда-то в этом тейке присутствует, но дело в другом - если мы обзываем ллмки глупыми авторегрессорами, то тогда мы сами-то кто? Человеческий мозг - очень сложная и далеко не изученная система, имеющая много возможностей. И у нас с вами в голове так же происходят вычисления и активации нейронов, пусть немного другим способом, чем сейчас в искусственных сетях (кстати говоря, сам Илья в интервью говорил, что сейчас предполагают, что в мозге происходит гораздо больше вычислений, чем мы думали). И самая главная задача нашего мозга, приобретённая в следствие эволюционных процессов - умение предсказывать будущее. Это чисто биологическое следствие и подтверждённый факт - современная нейронаука рассматривает мозг не как пассивный приёмник информации, а как активный орган, который строит внутренние модели мира, постоянно генерируя микропредсказания, сравнивая с реальностью (с тем, что приходит от органов чувств), чтобы мы с вами не ощущали "пинг". Более того, мозг так же может ошибиться и пытается обработать такие ошибки, что ощущается как мимолётный сюрприз/страх. В пример можно привести простое хождение по тротуару - мозг постоянно предсказывает следующий шаг и ощущение от него. Но если под ногой вдруг оказывается незамеченная яма, мы мгновенно теряем равновесие и можем ощутить короткий страх - так мозг пытается скорректировать движения и свою внутреннюю модель устойчивости на поверхности.
Posted Nov 18
Вышла Gemini 3 Вероятно, многие уже заметили релиз, а некоторые негодуют о том, что случилось с результатами по коду (они улучшились незаметно). Я пока еще не успел достаточно потыкаться, но то, что это одна из лучших моделей на рынке - можно сказать с уверенностью. Хотелось бы спекулятивно отметить возможный вижн гугла и того, для чего, собственно, эта модель. Вероятно, сейчас мир (топ ai компании) начал достигать софт капа по популярным доменам вроде кода. Процентное соотношение данных, содержащих код ко всем текстовым данным, что мы с вами накопили за столько лет эволюции, пренебрежимо мало (а высокоинформативных и подавно). С математикой примерно такая же история, но там проблема другая - токенайзер и разные «языки» доменов внутри неё как минимум. Поэтому пытаться забрать пару десятков/сотен процентных пунктов в новом релизе - не сильно выдвигает вперед модель на конкурентном рынке. Вместо этого, делается фокус на агентских способностях (прирост на agentic coding +~15%), благо, ai code платформы - новый "прорывной" продукт, способный к генерации больших данных, и на мультимодальность/spacial understanding. Видно, как несмотря на скептицизм, ребята всё же пробуют достичь эту G в акрониме AGI, путём засовывания всего чего только можно представить в один и тот же трансформер. На удивление, пока вроде работает неплохо, метрики растут и модельки улучшаются. А для чего оно всё на этом этапе? Буквально, для всего. У гугла внутри их конторы, и DeepMind в частности, есть множество отделов, занимающиеся идеями самого разного калибра - от агентских сетей вроде AlphaEvolve до блин претрена ASR моделей на декодинг языка белых китов. И кто как не сильная мультимодальная модель поможет преуспеть в этих идеях - начиная от простого копилотизма и генерации/извлечения данных, кончая дистиллятами в меньшие специфичные gemma-like штуки. Самое интересное, что мы даже точно не знаем, сколько идей и отделов сидят в тени, пока потеют над своей прорывной задачкой... Если AGI и достижимо, то путь к этому будет больной коллаборацией людей с пока что улучшающимися моделями, теряющих миллиарды бенжаминов ежегодно.
Posted Sep 30
За последнее время много разного повыходило, начиная от обновлений закрытых моделей, заканчивая новой линейкой Qwen с сотнями миллиардами параметров. Но самое интересное - нам представили пару новых архитектурных модификаций! Я говорю о Qwen-Next и DeepSeek v3.2. Давайте посмотрим, что там под капотом, сегодня на приёме - новенький ГлубокийПоиск в3.2 😄 Парням было мало преимущества скоростной генерации MoE архитектур, поэтому они решили, а почему бы похожим образом не раздробить аттеншн. Напомню математические операции, которые лежат в основе: На вход нам поступает вектор, размерностью N (эмбеддинги токенов), после чего каждый токен независимо проецируется в три вектора - Query,Key, Value, а затем, для каждой пары токенов i, j вычисляется score через скалярное произведение Score(i, j) = Qi * Kj^T Потом, полученные скоры для каждого i нормализуются софтмаксом, домножаясь на Value. Именно операция matmul Q*K^T и является самой тяжелой во всех этих преобразованиях, поскольку Q и K имеют размер (N, d), где N - количество токенов в последовательности, а d - размерность вектора -> Количество операций растет квадратично с ростом числа токенов N, как и потребление памяти. Мы уже знаем несколько разных модификаций всей этой истории, но вчера DeepSeek показал ещё один интересный способ: А что, если мы не будем считать аттеншн для тех токенов, которые не очень-то и важны?.. Для этого они придумали подход, который идейно, как по мне, схож с MoE - если в MoE архитектуре у нас вместо MLP слоя есть роутер, который активирует часть экспертов на один токен, то тут они вставили "Lightning Indexer", который вычисляет важность между текущим токеном и предыдущим. А затем, выбирается top n самых важных токенов, на которых и будет считаться аттеншн. Этот подход позволил им значительно удешевить инференс и обучение модели! Что интересно, так как этот индексер разделён на головы, а количество их мало, он может быть имплементирован в пониженном качестве (предлагают FP8), что ещё больше может ускорить всю систему. Что касаемо обучения - они просто взяли предыдущий чекпоинт V3.1 и сделали над ним CPT, заменив аттеншн слои. По метрикам это работает, где-то качество совсем немного просело, а где-то даже чуть выросло, более подробно можно посмотреть в их техрепорте. В общем, работа интересная, ждём R2
Posted Sep 24
Teaching LLM to Plan: разбираем свежую громкую статью от MIT про новый подход к обучению моделей мыслить Как мы уже много раз писали, сейчас ризонинг (хотя он и работает замечательно) – это на самом деле никакой не ризонинг. Рассуждения в LLM называются так чисто условно: на деле мы остаемся в абсолютно той же парадигме, просто модель теперь генерирует для ответа больше токенов. А вот как научить LLM действительно рассуждать "по-человечески" – это вопрос. MIT предложили один из вариантов. Идея вот в чем: – Настоящее планирование, если подумать, требует не просто генерации текста, а умения переходить из состояния в состояние. Например, строго: из состояния А следует Б или В, Г не может следовать из А, цепочка A->Б не приведет к цели, значит переходим в состояние В. На деле очень многие задачи на "мышление" раскладываются именно в такие цепочки: головоломки, логические задачки, да даже математика. – Такие рассуждения называются символьными. И MIT утверждают, что вместо того, чтобы учить модель генерировать просто "какой-то правдоподобный" CoT в виде обычных токенов, мы можем учить ее генерировать такие вот символьные цепочки, и это повысит надежность ризонинга. – При этом нам даже не нужна разметка, потому что эти цепочки можно проверять верификатором (как делали DeepSeek, когда обучали DeepSeek-Prover-V2). Сначала модели просто показывают много цепочек, учат отделять правильные от неправильных и объяснять, что не так. Затем что-то похожее на RL: модель генерирует CoT, его проверяет верификатор, получаем фидбэк и на нем делаем шаг обучения. Результат: на задачах из тестов такой ризонинг дает +30–60 п.п. к обычному ризонингу и кратные улучшения относительно бейзлайна. Правда, домен в статье довольно узкий (и модельки брали старые + для GPT-4 вообще prompt-based tuning). Интересно, получится ли подобное применить на более высоком уровне. https://arxiv.org/pdf/2509.13351
Posted Sep 24
О, кто-то тоже додумался до такой штуки. Интересно, вдохновлялись ли они AS-Pharade?.. 😂
Posted Sep 2
Важный апдейт! Я скоро буду мигрировать в другую компанию, даже не знаю, будет ли там время/возможность запускать обучение будущих моделей.. Но даже если такой возможности не предвидится - думаю, буду арендовать сервера с GPU. В связи с этим, сделал коммит с имплементацией Dynamic Finetuning (DFT), о котором писал выше, можно пробовать тренироваться таким методом) Так же, всё-таки решил залить экспериментальную модель Pharade, о которой тоже писал! Она была натренирована на специальных синтетических данных и способна генерировать гипотезы, прежде чем решать задачку. Это похоже на tree search, где модель может оставлять себе заметки, какие подходы проверить, а какие заранее тупиковые, что, в потенциале, может уменьшать бюджеты ризонинга. Не знаю, насколько оно работает на самом деле, но по крайней мере выглядит прикольно. Хотелось бы ещё дообучить всё это дело GRPO-like методами, чтобы посмотреть, что может получиться. Вот пример того, что генерируется в специальном блоке: [Goal: Найти основание b] → [H1: Использовать формулу площади S=b*h?] ↓ [H1.1: Подставить известные значения] → | [H1.1.1: 420 = b * 35!] # Недостаточно данных | [H1.1.2: Переписать уравнение] → [H1.1.2.1: b = 420 / 35!] [H1.1.2.2: Вычислить результат] ! [H2: Связать стороны через периметр?] | [H2.1: Периметр P = 2(a + b)!] → [H2.1.1: Нужно второе уравнение?] *X | [H2.2: Дополнительные условия? ] ? [H3: Проверить альтернативные подходы] ? ↓ | [H3.1: Геометрическая интерпретация] → [H3.1.1: Площадь как проекция] → | [H3.1.1.1: Если угол между основанием и высотой α, то S=b*h_перпендикулярна] *X | [H3.1.1.2: Альтернатива: использовать векторы] *V | [H3.2: Координатный метод] → [H3.2.1: Поставить систему координат] → | [H3.2.1.1: Вершины A(x₁,y₁), B(x₂,y₂)] | [H3.2.1.2: Векторное произведение AB × AD = BC × CD] *X [H4: Сравнить методы] ↑ [H4.1: Результаты H1.1.2.2 совпадают?] → | [H4.1.1: Да → Ответ 12] | [H4.1.2: Нет → Противоречие/недостаток данных] *X [H5: Проверка вычислений] $ → | [H5.1: Повторить деление 420/35!] | [H5.2: Убедиться в корректности формулы площади] В общем, надеюсь, пока я ещё тут и у меня есть доступ к GPU, хоть что-то успею дообучить!
Posted Aug 22
Ну что, момент настал! AS-GPT-5 Своего рода magnum opus того, чем я последние полгода занимался. До этого момента я обучал только готовые модели, включая модель от Ruadapt с замененным токенайзером. И хоть получалось неплохо, на некоторых задачах метрики росли, мы даже смогли залететь на арену (кстати, Watari до сих пор там!). А если вспомнить про первые потуги заводить GRPO, когда ни у кого не было примеров, да и реализация trl оставляла желать лучшего... Но это всё было не то. Ощущения, что ты вносишь минимальные изменения, а основное за тебя сделали до (что, безусловно, так и есть!). Поэтому хотелось обучить что-то чисто своё, собрать свои данные, нагенерить своих синтов, сделать именно свою модель, без чужого alignment'а и защиты. И вот, могу теперь представить первую полную и стабильную версию AS-GPT-5. Модель основана на базе (претрене) от yandex/Yandex-GPT-5-Lite, дообученная полностью с нуля на своих данных (почти все есть в opensource). 2+ недели обучения, 8B параметров - и сейчас уже можно её пощупать! - Обучение производилось в полных параметрах, без LoRA - Было несколько этапов, включая инструктивный, RL и свой alignment - Поддерживает генерацию 8192 токенов - Поддерживает возможность частичного контроля reasoning (При задании соответствующего режима в системном промпте) Больше про обучение и то, что происходило за кулисами - расскажу уже после финализации, а пока: - Предстоит работа с RL для того, чтобы забрать бОльший контроль над режимами рассуждений - Хочу ещё завести GSPO на сложной математике - Нужно ещё оценить на бенчмарках бы... А так, можно пробовать, скачивать и тестить на своих задачах! Фидбеку всегда рад, если кто-нибудь найдёт проблемы - просьба написать в issues! Я, конечно, не имею большого кластера GPU, но постараюсь пособирать данные и дообучать дальше)
Posted Aug 18
Апдейт спустя 10 дней: - Модель всё ещё обучается, я успел столкнуться с проблемами, включая нахождение аппаратной ошибки карты и битых чекпоинтов, но.. всё благополучно победил, пришлось некоторые этапы рестартить, конечно, без жертв не обошлось - Я довайбил сайт проекта - attn-signs-center, он почти полностью написан Gemini 2.5 Pro, поскольку я разбираюсь в вебе чуть менее чем никак. Там планирую тоже выпускать "статьи", только чуть более расширенного характера, с примерами и кодом. Сейчас там есть 3, но они все тоже написаны Gemini чисто для теста. Я против того, чтобы транслировать знания/навыки через нейросеть в проекте, поэтому когда доберусь до статей - снесу и напишу новые. - Выложил инструктивный датасет - ru-instructions, по большей части это мёрдж вихрёвского sonnet-it с моим russian-easy-instructions (генератор - GPT-OSS-120b) И, что интересное, смотрите, что я нарыл! On the Generalization of SFT: A Reinforcement Learning Perspective with Reward Rectification Очень интересная статья китайцев, которые предлагают изменить подсчёт loss'a в SFT буквально одной строчкой - заскейлим loss каждого токена на предсказанную вероятность. Прирост на бенчмарках где-то около 20 пунктов, на математике в reasoning. Прозвали они такой метод DFT, я уже пытаюсь с этим обучаться - пришлось запатчить compute_loss в SFT Trainer, тоже об этом расскажу!
Posted Aug 8
Я тут обнаружил, что с ядром flash-attn3 я могу спокойно держать обучение в 8192 max_len и не падать в ООМ на одной машине с двумя хопперами! И к тому же, теперь я могу держать GRPO обучение на одной ноде, а инференс vLLM на второй, без надобности коммуникаций друг с другом карт. И даже не нужны эти свитчи (которые блин до сих пор не могут завести на нашем ЦОДе, потому что боже, благослови импортозамещённые айти технологии) Поэтому, незамедлительно начал обучение нового ризонера. Решил, что больше не буду пихать на HF промежуточные чекпоинты между стадиями, теперь спокойно обучу и пихну только конечную модель. В планах 3 стадии, базовая модель yandex-gpt, 8B: - SFT (instruct + reasoning), на серии gromov-max и инструктивных ризонинг датасетах, которые я ещё не выкладывал - RL GSPO (math reasoning), на серии gromov (начнём с задач средней сложности, догоним PhD level (четвёртым громовым) - Alignment, SFT c небольшим LR на датасете с персонажем, возможно так же запущу вариацию DPO на датасете с предпочтениями Думаю, на всё про всё уйдёт около 2х недель, посмотрим как будет получаться
Posted Aug 7
Ещё апдейты: Пока жду инфру, работаю над сайд-квестами и генерирую датасеты. Из недавних достижений: - Библиотека MyLLM получила целых 15 звёздочек на github'е, а значит, многим людям фреймворк пришёлся по душе и, наверное, оказался полезным - Наш последний чистый математический ризонер (GPTR-8b-v2) скачали более 650 раз и продолжают скачивать - это не может не радовать, думаю, народу нужны сильные русские ризонеры. Хоть вторая версия была обучена давно и на совсем небольшом датасете, но основана на базовой модели yandex-gpt с их токенайзером. Обязательно продолжу работу, есть грандиозные планы по созданию хороших русских моделей и по покорению математических бенчмарков. - Так же я делаю (вайблю) прототип сайта проекта, прикреплю картинку к посту, где будут разные углублённые статьи, и, что важно, документация к MyLLM по всем полям, настройкам и т.д Из последнего: Заметил очень критический баг, в следствие которого движок deepspeed инициализировался два раза с разными параметрами, и full finetuning обучение падало. К тому же, почти все скрипты занимали на 30% больше VRAM (вероятно, из-за того, что оптимайзер порождался два раза). Занимаюсь так же интеграцией и тестированием разных оптимайзеров (вроде 8-bit AdamW), чтобы учиться экономить память и не убивать трейн. Скоро всё оформлю в коммит!
Posted Aug 6
В общем, да, вышел GPT-OSS (open source series или что-то в этом роде), первый за 6 лет открытый релиз OpenAI. И, если честно, не понимаю, почему многие захейтили модель. Чтобы понять, почему и зачем - нужно посмотреть, что сейчас есть предлагает опенсорс: - Есть сильные средние модели для запуска на high-end consumer GPU вроде Qwen3 - Есть очень сильные модели для запуска на серверных GPU типа GLM и DeepSeek - Есть достаточно несуразные модели для запуска на low-end GPU "Рынок" забит хорошими средними-большими опенсорс моделями на любой вкус, если у вас есть возможность их вообще запустить. Поэтому, с точки зрения какой-то стратегии, выпускать подобную сильную модель для OpenAI не имело никакого смысла - это ведь нужно либо сравняться, либо немного обогнать существующие решения по метрикам, чтобы быть интересными коммьюнити. А если это сделать - тогда какой смысл юзерам использовать их API или чат, когда можно поставить себе эту штуку локально, которая будет на уровне o4-mini и выше?.. Поэтому, они сделали хорошо - мало того что выкатили вполне себе умные MoE модели на 20B и 120B, так ещё и натренировали это всё дело в MXFP4, что даёт возможность запускать маленькую на обычных видеокартах, а большую на одной серверной H100. И в этом сегменте эти OSS - лучшие на рынке, особенно если сравнивать с другими плотными малышами, которые до сих пор путают языки и вставляют иероглифы в середине слова. Плюс к этому, в MXFP4 всё работает буквально пулей, генерация очень быстрая. Да, русскоязычное коммьюнити недовольно тем, как "маленькая" 20B модель общается на русском - но камон, а чего вы ожидали от такого формата в трене и изначально других целей? OpenAI даже сами намекают в своей статье по файнтюну OSS, что модель создана преимущественно для английского, а вот посмотрите, как можно зафайнтюнить для другого языка (в статье взяли испанский). Я погонял её по разным вопросам, как на русском, так и на английском - работает более чем сносно, на русском иногда делает ошибки, но совершенно не критичные. Файнтюн спокойно выровнит эти огрехи. Поэтому да, релиз получился вполне хороший для своих целей и областей применения, особенно для рядовых пользователей.