📌Как Gemini превращает изучение языков в персонализированный опыт: обзор 3 экспериментов.
Представьте, что учите язык не по учебникам, а через ситуации, в которых оказываетесь каждый день. Именно эту идею воплотила команда Google в проекте Little Language Lessons— трех экспериментах на базе Gemini API, которые делают обучение живым и контекстным.
Первый эксперимент, Tiny Lesson, решает проблему «как сказать это сейчас?». Вы описываете ситуацию — например, «потерял паспорт» — и получаете словарь и фразы в формате JSON. Всё благодаря промптам, где Gemini генерирует структурированные данные: массив терминов с транскрипцией и переводом, а также советы по грамматике.
Например, если целевой язык — японский, модель сама определит, нужна ли транскрипция ромадзи, и подготовит материал за 2 API-запроса. Это не просто список слов, а готовый микрокурс под конкретный сценарий.
Второй, Slang Hang, убирает «учебникоговорение». Тут Gemini выступает как сценарист: создаёт диалоги на целевом языке с культурными нюансами и сленгом. Все генерируется одним запросом — от контекста сцены до реплик с пояснениями. Пример: диалог продавца и туриста может включать неформальные выражения, которые не найдешь в стандартных учебниках.
Правда, иногда модель ошибается или придумывает выражения, так что без проверки носителем не обойтись. Но сам подход — дать пользователю «уши» в реальных разговорах выглядит перспективно, особенно с интеграцией Cloud Translation для мгновенного перевода.
Третий, визуальный эксперимент — Word Cam. Наводите камеру на объект, и Gemini не только определяет его (bounding box), но и предлагает слова вроде «подоконник» или «жалюзи». Детекция работает через Gemini Vision, а дополнительные дескрипторы (цвет, материал, примеры употребления) подтягиваются отдельным запросом. Для изучения бытовой лексики почти идеально, хотя точность сильно зависит от качества снимка.
Во всех экспериментах задействован Text-to-Speech — озвучка слов и фраз. Но есть нюанс: для редких языков голоса зачастую звучат неестественно или не совпадают с диалектом. Например, выберете мексиканский испанский, а синтезатор выдаст акцент из Мадрида. Разработчики честно признают: это ограничение текущих API, и над ним еще работать.
Little Language Lessons — начало переосмысления процесса обучения языкам. Проекту пока не хватает тонкой настройки под лингвистическую специфику (идиомы или региональные диалекты), но основа уже заложена.
🟡Статья
@ai_machinelearning_big_data
#AI#ML#LLM#Gemini
⭐️Nous Research открыла исходный код Nomos 1.
При размере всего 30B параметров модель набрала 87/120 на Putnam - одном из самых престижных математических конкурсов в мире.
Такой результат соответствовал бы 2-му месту среди 3988 участников в 2024 году.
Nomos 1 показала 87/120 и восемь идеальных решений. Для сравнения: Qwen3-30B при тех же условиях получила 24/120. Это подчёркивает, что преимущество Nomos связано прежде всего с качеством обучения и данных, а не с тестовой средой.
Проверка решений проходила вслепую: их оценивал реальный участник Putnam из топ-200, получивший обезличенные ответы.
Задачи решались в тех же временных рамках, что и у участников - по 3 часа на каждую часть.
Система рассуждений устроена так:
— сначала “workers” решают наиболее сложные задачи и сами оценивают свои решения;
— затем этап финализации, ИИ объединяет ответы и выбирает итоговый вариант.
▪HF: https://huggingface.co/NousResearch/nomos-1
▪Github: https://github.com/NousResearch/nomos
@ai_machinelearning_big_data
#llm#ml#ai
✔️Представлен новый метод для понимания работы больших языковых моделей — SAE Boost
Метод помогает увидеть на какие внутренние признаки опирается ИИ, когда формирует ответы без переобучения всей модели.
В основе — дополнительный автоэнкодер, который обучается на остаточной ошибке базовой модели и вылавливает редкие, специализированные сигналы, влияющие на решение модели. Sae Boost уже протестировали на тестах по химии, документах ООН и русскоязычном контенте – метод показал значительное улучшение качества реконструкции (explained variance) и снижения перекрестной энтропии LLM (LLM cross-entropy) на специализированных доменах.
@ai_machinelearning_big_data
#news#ai#ml#llm
✔️T-Pro 2.0 — LLM с гибридным режимом рассуждений
Т-Банк релизнул модель с гибридным ризонингом в опенсорс.
T-Pro 2.0 дообучили на основе Qwen3 32B, улучшив качество и скорость генерации на русском языке.
Вместе с моделью впервые выложили инструктивный датасет. Как дообучали модель сегодня рассказали на Turbo ML конфе и выложили на хабр.
✔️Дообучение модели T-Pro 2.0 проходило в несколько этапов.
На основе токенизатора Qwen3 и с помощью расширения его кириллической части более, чем в 5 раз, разработчики получили улучшенный токенизатор для мультилингвальных моделей. По итогу токенизатор оказался на 30% более эффективен для русского языка. Затем за счет плотного токенизатора на двух доменах (чатовые запросы ru-arena-hard и олимпиадные математические задачи из T-Math) ускорили инференс.
Следующим шагом было дообучение на большом русскоязычном инструктивном корпусе. Далее модель дообучали на более чистом SFT-сете, сформированном из разнообразных промптов, собранных вручную, из открытых источников и переводов англоязычных наборов данных. Для формирования итогового датасета ответы на инструкции генерировались с помощью более мощных моделей, таких как DeepSeek-V3 0324 и Qwen3-235B-A22B. Это позволило обеспечить высокий уровень точности и релевантности.
На стадии Preference tuning для обучения DPO сформировали набор данных с фильтрацией по длине и типу для general-инструкций и сохранением баланса доменов для reasoning-инструкций.
На финальном этапе Speculative decoding в качестве драфт- модели выбрали EAGLE 1 с генерацией драфта во время инференса с помощью tree attention согласно EAGLE 2.
✔️Бенчмарки моделей
Для того, чтобы оценить способности моделей к ведению диалога, следованию инструкциям и решению задач разработчики использовали LLM-as-a-judge-арены: Arena Hard Ru, Arena Hard 2 и арену WildChat Hard Ru. В последней в качестве бейзлайна использовались ответы модели o3-mini, а “судьей” для всех арен выступал DeepSeek V3 0324. Для оценки знаний о мире и общим логическим способностям моделей на русском языке использовались бенчмарки MERA, MaMuRAMu, ruMMLU, ruMMLU-Pro.
Бенчмарки AIME, MATH-500, GPQA Diamond, Vikhr Math, Vikhr Physics, LiveCodeBench v4_v5 позволили оценить способности reasoning-модели к рассуждениям и решению сложных задач. Англоязычные бенчмарки были целиком локализованы на русский язык ИИ-тренерами: ruAIME, ruMATH-500, ru GPQA Diamond, ruLCB. Компания также использовала свой бенчмарк Т-Math, чтобы расширить оценку математических способностей на русском языке.
✔️Задачи, которые закрывает T-Pro 2.0
Дообучение даже продвинутых LLM позволяет управлять стоимостью инференса и скоростью генерации, дообучать важные домены (саппорта или распределение внутреннего промтинга), уменьшить количества артефактов и проблем с русским языком.
Модель T-Pro 2.0 доступна по лицензии Apache 2.0, ее можно бесплатно использовать как для решения задач в промптинге, так и для дообучения на свои задачи.
▪️Hugging face:T-Pro 2.0
Датасет T-wix
@ai_machinelearning_big_data
#news#ai#ml#llm
⚡️«Норникель» выложил MetalGPT-1 - 32B LLM, обученную на миллионe закрытых технологических документов по металлургии и добыче.
Важно не только то, что это доменная модель. Важно каким типом данных её кормили.
Технологические протоколы, регламенты, НИОКР, строй- и проектная документация - это не тексты в привычном ML-смысле.
Это формализованные фрагменты производственного мира: язык процессов, цепочек, ограничений, рисков.
Обучая LLM на таком корпусе, компания фактически создаёт отдельный “data-reality layer”, который универсальные модели просто не видят. И в этом - главная новость.
Появляется новая парадигма: не “адаптируем GPT под домен”, а строим ИИ вокруг индустриального мира как первичного источника данных.
MetalGPT-1 - всего лишь первый пример. Дальше будут модели для химтеха, логистики, энергетики, строительства. У каждой отрасли — собственный язык, собственный датасет, собственная реальность.
И это значит, что domain-first LLM перестают быть экспериментом. Они становятся инфраструктурой.
https://huggingface.co/nn-tech
#llm#ml
🧠 Сергей Брин рассказывает о своей новой привычке
Он разговаривает с Gemini Live прямо за рулём - обсуждает энергопотребление дата-центров, стоимость инфраструктуры и другие рабочие темы.
Это классический Google-style: тестировать собственный продукт в реальной жизни. Напоминает историю про Билла Гейтса, который снял радио из машины, чтобы постоянно думать о Microsoft.
Такой уровень одержимости - редкость. И, честно, именно он отличает по-настоящему больших фаундеров.
Интересная деталь: Сергей говорит, что версия Gemini, которой он пользуется в машине, заметно лучше того, что доступно публично сейчас.
@ai_machinelearning_big_data
#Gemini#google#ai#ml
🔥 Google DeepMind выпустили Gemini 2.5 Deep Think — для Ultra‑пользователей
🚀 Характеристики:
> 📏 Контекст — 1 миллион токенов
> 🧾 На выходе — до 192k токенов
📊 И результаты на бенчмарках сумасшедшие:
— HLE : 34.8%
— Live Code Bench: 86.6%
— AIME 2025: 99.2%
🤯 Пока все обсуждают выход GPT‑5, Google тихонько выкатили топ модель.
Бенчмарки — огонь. Я уже подумываю оформить подписку на Ultra.
🟠Анонс
@ai_machinelearning_big_data
#ai#ml#Gemini#google
📈 OpenAI и Anthropic показывают взрывной рост прибыли в 2025.
— OpenAI удвоили ARR* за полгода: $6B → $12B
— Anthropic выросли в 5 раз за 7 месяцев: $1B → $5B
*ARR (Annual Recurring Revenue) — это годовой повторяющийся доход, один из ключевых финансовых показателей для компаний, особенно в сфере подписок (например, SaaS).
🧻 Интересное распределение выручки:
— OpenAI лидирует в подписках (частные и корпоративные пользователи)
— Anthropic чуть впереди по доходу с API: $3.1B против $2.9B
— Почти половина API-выручки Anthropic поступает всего от двух клиентов: Cursor и GitHub
🧑💻 ChatGPT обрабатывает более 3 миллиардов сообщений в день — и рост продолжается ускоряться.
Если год назад прирост пользователей составлял 2,5× в год, то теперь он достиг 4×.
Code Claude же даёт $400M ARR — в 2 раза больше, чем всего несколько недель назад.
Сегодня почти все ассистенты по умолчанию используют Claude 4 Sonnet.
Но если GPT‑5 перехватит лидерство — и те же Cursor или Copilot перейдут к OpenAI — расклад может быстро поменяться.
@ai_machinelearning_big_data
#OpenAI@Anthropic#ml#llm#ai