Продолжаем рубрику с нашими работами из #StableDiffusion🤖
На этот раз сгенерировали Neuro Monster 🧟♂️
#neuralnetworks#neuroscience#ai#stablediffusion#deforumstablediffusion
✔️Представлен новый метод для понимания работы больших языковых моделей — SAE Boost
Метод помогает увидеть на какие внутренние признаки опирается ИИ, когда формирует ответы без переобучения всей модели.
В основе — дополнительный автоэнкодер, который обучается на остаточной ошибке базовой модели и вылавливает редкие, специализированные сигналы, влияющие на решение модели. Sae Boost уже протестировали на тестах по химии, документах ООН и русскоязычном контенте – метод показал значительное улучшение качества реконструкции (explained variance) и снижения перекрестной энтропии LLM (LLM cross-entropy) на специализированных доменах.
@ai_machinelearning_big_data
#news#ai#ml#llm
✔️T-Pro 2.0 — LLM с гибридным режимом рассуждений
Т-Банк релизнул модель с гибридным ризонингом в опенсорс.
T-Pro 2.0 дообучили на основе Qwen3 32B, улучшив качество и скорость генерации на русском языке.
Вместе с моделью впервые выложили инструктивный датасет. Как дообучали модель сегодня рассказали на Turbo ML конфе и выложили на хабр.
✔️Дообучение модели T-Pro 2.0 проходило в несколько этапов.
На основе токенизатора Qwen3 и с помощью расширения его кириллической части более, чем в 5 раз, разработчики получили улучшенный токенизатор для мультилингвальных моделей. По итогу токенизатор оказался на 30% более эффективен для русского языка. Затем за счет плотного токенизатора на двух доменах (чатовые запросы ru-arena-hard и олимпиадные математические задачи из T-Math) ускорили инференс.
Следующим шагом было дообучение на большом русскоязычном инструктивном корпусе. Далее модель дообучали на более чистом SFT-сете, сформированном из разнообразных промптов, собранных вручную, из открытых источников и переводов англоязычных наборов данных. Для формирования итогового датасета ответы на инструкции генерировались с помощью более мощных моделей, таких как DeepSeek-V3 0324 и Qwen3-235B-A22B. Это позволило обеспечить высокий уровень точности и релевантности.
На стадии Preference tuning для обучения DPO сформировали набор данных с фильтрацией по длине и типу для general-инструкций и сохранением баланса доменов для reasoning-инструкций.
На финальном этапе Speculative decoding в качестве драфт- модели выбрали EAGLE 1 с генерацией драфта во время инференса с помощью tree attention согласно EAGLE 2.
✔️Бенчмарки моделей
Для того, чтобы оценить способности моделей к ведению диалога, следованию инструкциям и решению задач разработчики использовали LLM-as-a-judge-арены: Arena Hard Ru, Arena Hard 2 и арену WildChat Hard Ru. В последней в качестве бейзлайна использовались ответы модели o3-mini, а “судьей” для всех арен выступал DeepSeek V3 0324. Для оценки знаний о мире и общим логическим способностям моделей на русском языке использовались бенчмарки MERA, MaMuRAMu, ruMMLU, ruMMLU-Pro.
Бенчмарки AIME, MATH-500, GPQA Diamond, Vikhr Math, Vikhr Physics, LiveCodeBench v4_v5 позволили оценить способности reasoning-модели к рассуждениям и решению сложных задач. Англоязычные бенчмарки были целиком локализованы на русский язык ИИ-тренерами: ruAIME, ruMATH-500, ru GPQA Diamond, ruLCB. Компания также использовала свой бенчмарк Т-Math, чтобы расширить оценку математических способностей на русском языке.
✔️Задачи, которые закрывает T-Pro 2.0
Дообучение даже продвинутых LLM позволяет управлять стоимостью инференса и скоростью генерации, дообучать важные домены (саппорта или распределение внутреннего промтинга), уменьшить количества артефактов и проблем с русским языком.
Модель T-Pro 2.0 доступна по лицензии Apache 2.0, ее можно бесплатно использовать как для решения задач в промптинге, так и для дообучения на свои задачи.
▪️Hugging face:T-Pro 2.0
Датасет T-wix
@ai_machinelearning_big_data
#news#ai#ml#llm