🌟 Marco-o1: модель рассуждений от Alibaba.
Marco-o1 – LLM, файнтюн-версия Qwen2-7B-Instruct для решения сложных задач, требующих рассуждений. В создании модели использовались методики Chain-of-Thought (CoT), поиска по дереву Монте-Карло (MCTS) и уникальные стратегии регулирования действий при рассуждении.
Marco-o1 обучалась на 3 датасетах: отфильтрованный набор данных Open-O1 CoT, синтетический набор Marco-o1 CoT и собственный набор инструкций Marco.
В модели реализованы 2 стратегии действий: "шаг как действие" и "мини-шаг как действие" (32 или 64 токена соответственно). Мини-шаг как действие обеспечивает более детальное исследование пространства решений.
В Marco-o1 был внедрен механизм рефлексии, который побуждает модель переосмысливать свои рассуждения, что улучшает результаты инференса, особенно в сложных составных задачах.
Модель оценивалась на наборах данных MGSM (английский и китайский). Результаты показали, что Marco-o1 превосходит Qwen2-7B-Instruct и демонстрирует улучшение точности на 6,17% для английского набора данных и 5,60% для китайского. Модель превзошла Google Translate в задачах языкового перевода, особенно при переводе разговорных выражений.
В ближайших планах:
🟠Обучаются версии модели вознаграждения за результат (ORM) и вознаграждения за процесс (PRM).
🟠Reinforcement Learning: обучение с подкреплением для совершенствования рассуждений.
▶️Установка и локальный инференс:
# Clone the repository
git clone https://github.com/AIDC-AI/Marco-o1
# Change to the Macaw-LLM directory
cd Marco-o1
# Install required packages
pip install -r requirements.txt
# Load model directly
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("AIDC-AI/Marco-o1")
model = AutoModelForCausalLM.from_pretrained("AIDC-AI/Marco-o1")
# Run Inference
./src/talk_with_model.py
📌Лицензирование: Apache 2.0 License.
🟡Модель
🟡Версии GGUF
🟡Arxiv
🟡Датасет
🖥GitHub
@ai_machinelearning_big_data
#AI#ML#LLM#CoT#Alibaba#MarcoO1
⭐️Nous Research открыла исходный код Nomos 1.
При размере всего 30B параметров модель набрала 87/120 на Putnam - одном из самых престижных математических конкурсов в мире.
Такой результат соответствовал бы 2-му месту среди 3988 участников в 2024 году.
Nomos 1 показала 87/120 и восемь идеальных решений. Для сравнения: Qwen3-30B при тех же условиях получила 24/120. Это подчёркивает, что преимущество Nomos связано прежде всего с качеством обучения и данных, а не с тестовой средой.
Проверка решений проходила вслепую: их оценивал реальный участник Putnam из топ-200, получивший обезличенные ответы.
Задачи решались в тех же временных рамках, что и у участников - по 3 часа на каждую часть.
Система рассуждений устроена так:
— сначала “workers” решают наиболее сложные задачи и сами оценивают свои решения;
— затем этап финализации, ИИ объединяет ответы и выбирает итоговый вариант.
▪HF: https://huggingface.co/NousResearch/nomos-1
▪Github: https://github.com/NousResearch/nomos
@ai_machinelearning_big_data
#llm#ml#ai
🧠 Qwen3-MT — Alibaba продолжает жечь и выпускает еще одну модель, в этот раз для машинного перевода.
🌍 Поддерживает 92+ языка, на которых говорит 95% населения мира
📚 Обучен на триллионах токенов из интернета, открытых документов и книгах, субтитров из видео.
🔬 Что внутри:
- Модель Qwen3-MoE-72B с архитектурой Mixture-of-Experts
- Заточена на переводческие фишки, поддерживает сложную терминологию и даже очень редкие слова.
- RLHF: обучение с подкреплением повышает точность и естественность модели
Возможности:
✅ Обеспечивает качественный перевод в реальном времени
✅ Контроль стиля и терминов
✅ Масштабируемость для API и продакшена
✅ Цена — от $0.5 за миллион токенов
🟡 Попробовать демку: https://huggingface.co/spaces/Qwen/Qwen3-MT-Demo
🟡 ModelScope: https://modelscope.cn/studios/Qwen/Qwen3-MT-demo
🟡 Документация API:https://alibabacloud.com/help/en/model-studio/translation-abilities
🟡 Блог с подробностями: https://qwenlm.github.io/blog/qwen-mt/
@ai_machinelearning_big_data
#Qwen#Alibaba#ml#llm#ai
🚀 Qwen3-Coder — новая мощная open-source модель от Alibaba для кодинга
Модель с архитектурой MoE:
- 480B параметров в общей сложности
- 35B активных параметров
- Контекст 256k, но легко масштабируется до 1M токенов
📈 Производительность:
- На уровне Claude 4 Sonnet
- Лучше или на уровне GPT-4.1 на многих задачах
- Обходит Kimi K2, DeepSeek V3 на ряде бенчмарков
🧩 Модель уже доступна:
- На HuggingFace — можно скачать и запускать
- В OpenRouter — $1/M токенов вход, $5/M выход
(в 3 раза дешевле Claude Sonnet: $3 и $15)
💬 Попробовать бесплатно можно:
- Через чат: ttps://chat.qwen.ai/)
- GitHub link: https://github.com/QwenLM/qwen-code
Qwen3-Coder — это просто одна из лучших моделей для программирования, которые мы когда-либо видели.
#qwen#ml#ai#llm#Alibaba
@data_analysis_ml
✔️Представлен новый метод для понимания работы больших языковых моделей — SAE Boost
Метод помогает увидеть на какие внутренние признаки опирается ИИ, когда формирует ответы без переобучения всей модели.
В основе — дополнительный автоэнкодер, который обучается на остаточной ошибке базовой модели и вылавливает редкие, специализированные сигналы, влияющие на решение модели. Sae Boost уже протестировали на тестах по химии, документах ООН и русскоязычном контенте – метод показал значительное улучшение качества реконструкции (explained variance) и снижения перекрестной энтропии LLM (LLM cross-entropy) на специализированных доменах.
@ai_machinelearning_big_data
#news#ai#ml#llm
✔️T-Pro 2.0 — LLM с гибридным режимом рассуждений
Т-Банк релизнул модель с гибридным ризонингом в опенсорс.
T-Pro 2.0 дообучили на основе Qwen3 32B, улучшив качество и скорость генерации на русском языке.
Вместе с моделью впервые выложили инструктивный датасет. Как дообучали модель сегодня рассказали на Turbo ML конфе и выложили на хабр.
✔️Дообучение модели T-Pro 2.0 проходило в несколько этапов.
На основе токенизатора Qwen3 и с помощью расширения его кириллической части более, чем в 5 раз, разработчики получили улучшенный токенизатор для мультилингвальных моделей. По итогу токенизатор оказался на 30% более эффективен для русского языка. Затем за счет плотного токенизатора на двух доменах (чатовые запросы ru-arena-hard и олимпиадные математические задачи из T-Math) ускорили инференс.
Следующим шагом было дообучение на большом русскоязычном инструктивном корпусе. Далее модель дообучали на более чистом SFT-сете, сформированном из разнообразных промптов, собранных вручную, из открытых источников и переводов англоязычных наборов данных. Для формирования итогового датасета ответы на инструкции генерировались с помощью более мощных моделей, таких как DeepSeek-V3 0324 и Qwen3-235B-A22B. Это позволило обеспечить высокий уровень точности и релевантности.
На стадии Preference tuning для обучения DPO сформировали набор данных с фильтрацией по длине и типу для general-инструкций и сохранением баланса доменов для reasoning-инструкций.
На финальном этапе Speculative decoding в качестве драфт- модели выбрали EAGLE 1 с генерацией драфта во время инференса с помощью tree attention согласно EAGLE 2.
✔️Бенчмарки моделей
Для того, чтобы оценить способности моделей к ведению диалога, следованию инструкциям и решению задач разработчики использовали LLM-as-a-judge-арены: Arena Hard Ru, Arena Hard 2 и арену WildChat Hard Ru. В последней в качестве бейзлайна использовались ответы модели o3-mini, а “судьей” для всех арен выступал DeepSeek V3 0324. Для оценки знаний о мире и общим логическим способностям моделей на русском языке использовались бенчмарки MERA, MaMuRAMu, ruMMLU, ruMMLU-Pro.
Бенчмарки AIME, MATH-500, GPQA Diamond, Vikhr Math, Vikhr Physics, LiveCodeBench v4_v5 позволили оценить способности reasoning-модели к рассуждениям и решению сложных задач. Англоязычные бенчмарки были целиком локализованы на русский язык ИИ-тренерами: ruAIME, ruMATH-500, ru GPQA Diamond, ruLCB. Компания также использовала свой бенчмарк Т-Math, чтобы расширить оценку математических способностей на русском языке.
✔️Задачи, которые закрывает T-Pro 2.0
Дообучение даже продвинутых LLM позволяет управлять стоимостью инференса и скоростью генерации, дообучать важные домены (саппорта или распределение внутреннего промтинга), уменьшить количества артефактов и проблем с русским языком.
Модель T-Pro 2.0 доступна по лицензии Apache 2.0, ее можно бесплатно использовать как для решения задач в промптинге, так и для дообучения на свои задачи.
▪️Hugging face:T-Pro 2.0
Датасет T-wix
@ai_machinelearning_big_data
#news#ai#ml#llm
⚡️«Норникель» выложил MetalGPT-1 - 32B LLM, обученную на миллионe закрытых технологических документов по металлургии и добыче.
Важно не только то, что это доменная модель. Важно каким типом данных её кормили.
Технологические протоколы, регламенты, НИОКР, строй- и проектная документация - это не тексты в привычном ML-смысле.
Это формализованные фрагменты производственного мира: язык процессов, цепочек, ограничений, рисков.
Обучая LLM на таком корпусе, компания фактически создаёт отдельный “data-reality layer”, который универсальные модели просто не видят. И в этом - главная новость.
Появляется новая парадигма: не “адаптируем GPT под домен”, а строим ИИ вокруг индустриального мира как первичного источника данных.
MetalGPT-1 - всего лишь первый пример. Дальше будут модели для химтеха, логистики, энергетики, строительства. У каждой отрасли — собственный язык, собственный датасет, собственная реальность.
И это значит, что domain-first LLM перестают быть экспериментом. Они становятся инфраструктурой.
https://huggingface.co/nn-tech
#llm#ml
📌DeepConf: фильтрация мусорных СoT c высокой точностью.
Deep Think with Confidence (DeepConf) - способ улучшить рассуждения LLM, который в отличие от стандартного голосования по большинству, предлагает фильтровать варианты на лету, используя внутренние сигналы уверенности самой модели.
Идея в том, чтобы не ждать генерации полной цепочки рассуждений, а отслеживать её качество в реальном времени. Для этого придумали метрику "групповой уверенности" (group confidence) — усредненную уверенность модели на небольшом скользящем окне токенов.
Если эта метрика падает ниже определенного порога, генерация траектории рассуждения просто останавливается. Это позволяет отсекать низкокачественные цепочки на ранней стадии, экономя огромное количество токенов. При этом сам метод не требует дополнительного обучения или тюнинга гиперпараметров.
🟡DeepConf работает в 2 режимах.
В офлайн-режиме, когда все варианты уже сгенерированы, он позволяет применять взвешенное голосование или фильтрацию. Вместо простого подсчета голосов, каждый ответ взвешивается по уверенности породившей его цепочки рассуждений.
Результаты на бенчмарке AIME 2025: для GPT-OSS-120B стандартное голосование по 512 вариантам (cons@512) даёт точность 97.0%. Взвешивание с фильтрацией по уверенности (DeepConf@512) поднимает эту планку до 99.9%, практически решая бенчмарк.
🟡Но самый большой выигрыш даёт онлайн-режим.
Здесь происходит та самая ранняя остановка генерации. Для GPT-OSS-120B на том же AIME 2025 DeepConf в агрессивной конфигурации DeepConf-low сокращает количество сгенерированных токенов на 84.7% по сравнению с полной генерацией 512 вариантов. При этом точность не только не падает, а даже немного растeт — с 97.1% до 97.9%.
В более консервативном режиме, DeepConf-high, экономия токенов составляет 56.0%, а точность остается на уровне 97.0%. Схожие результаты наблюдаются и на моделях DeepSeek-8B и Qwen3-32B, где экономия токенов достигает 77.9% и 66.8% соответственно.
Для оценки уверенности прогнали несколько метрик, но наиболее эффективными оказались те, что фокусируются на слабых местах в рассуждениях. Например, метрика Bottom 10% Group Confidence (средняя уверенность по 10% наименее уверенных групп токенов) и Tail Confidence (уверенность на последних токенах цепочки) оказались лучше, чем простое усреднение по всему трейсу.
Порог для ранней остановки определяется на лету для каждого нового промпта. Сначала генерируется небольшое количество "разогревочных" трасс, на основе которых вычисляется порог уверенности. Затем запускается основная генерация, и любой вариант, чья групповая уверенность падает ниже этого порога, немедленно останавливается.
▶️Попробовать DeepConf на практике можно пока только в vLLM, есть примеры для онлайн и оффлайн режима. Отдельного репозитория проекта пока нет.
🟡Страница проекта
🟡Arxiv
@ai_machinelearning_big_data
#AI#ML#LLM#CoT#DEEPCONF
📈 OpenAI и Anthropic показывают взрывной рост прибыли в 2025.
— OpenAI удвоили ARR* за полгода: $6B → $12B
— Anthropic выросли в 5 раз за 7 месяцев: $1B → $5B
*ARR (Annual Recurring Revenue) — это годовой повторяющийся доход, один из ключевых финансовых показателей для компаний, особенно в сфере подписок (например, SaaS).
🧻 Интересное распределение выручки:
— OpenAI лидирует в подписках (частные и корпоративные пользователи)
— Anthropic чуть впереди по доходу с API: $3.1B против $2.9B
— Почти половина API-выручки Anthropic поступает всего от двух клиентов: Cursor и GitHub
🧑💻 ChatGPT обрабатывает более 3 миллиардов сообщений в день — и рост продолжается ускоряться.
Если год назад прирост пользователей составлял 2,5× в год, то теперь он достиг 4×.
Code Claude же даёт $400M ARR — в 2 раза больше, чем всего несколько недель назад.
Сегодня почти все ассистенты по умолчанию используют Claude 4 Sonnet.
Но если GPT‑5 перехватит лидерство — и те же Cursor или Copilot перейдут к OpenAI — расклад может быстро поменяться.
@ai_machinelearning_big_data
#OpenAI@Anthropic#ml#llm#ai
🍏Apple представила SHARP - фотореалистичный 3D генератор из одного изображения
SHARP - это исследовательский проект Apple, который умеет создавать фотореалистичные новые ракурсы сцены, имея всего одну фотографию.
Нейросеть за один проход предсказывает 3D-сцены в виде гауссианов.
Полученную 3D-сцену можно:
- рендерить в реальном времени
- получать высококачественные изображения с близких ракурсов
- двигать камеру в реальных метрических координатах
Главные фишки:
- используется метрическое 3D-представление с абсолютным масштабом
- поддерживаются реальные движения камеры
- модель работает zero-shot, без дообучения на новых датасетах
Модель устанавливает новый уровень качества сразу на нескольких наборах данных:
- метрика LPIPS улучшена на 25–34%
- метрика DISTS улучшена на 21–43% по сравнению с лучшими предыдущими моделями
При этом время генерации снижено в тысячи раз.
SHARP показывает, насколько далеко продвинулись методы 3D-реконструкции и view synthesis — и как быстро такие технологии начинают работать в реальном времени, а не только в лаборатории.
▪Github: https://github.com/apple/ml-sharp
▪HF: https://huggingface.co/apple/Sharp
▪Демки: https://apple.github.io/ml-sharp/
@ai_machinelearning_big_data
#apple#llm#ai#ml