Post #8110

@ai_machinelearning_big_data

Machinelearning

Просмотры26,500Количество просмотров

Опубликован21 июл.21.07.2025, 20:18

Содержимое поста

Содержимое

🚀Qwen выпустила новую большую модель — Qwen3-235B-A22B-Instruct-2507-FP8! Qwen только что обновили свою флагманскую модель — Qwen3-235B-A22B, и это просто загляденье. Команда Qwen официально заявила, что отказывается от гибридного режима (Instruct + Reasoning в одной модели). Вместо этого они будут выпускать отдельные модели: одна для инструкций, другая для рассуждений. Сегодня вышла Instruct-версия, reasoning-модель уже в разработке. 📊Метрики впечатляют: - Обгоняет Kimi K2, у которого, между прочим, *триллион* параметров. - По ряду бенчмарков Превосходит Claude 4 Opus (non-thinking). - Особенно мощный прирост — в ARC-AGI ⚙️ Архитектура — MoE (Mixture of Experts), активных параметров всего 22B из 235B. То есть модель намного легче, чем кажется — она вполне реалистична для inference, особенно в FP8-режиме. 📜 Модель отлично справляется с: - Пониманием инструкций - Логическим выводом - Обработкой длинных контекстов до 256K токенов 💬 В будущем планируют дистилляцию в младшие версии, так что праздник будет не только для тех, у кого RTX 6000 на столе. 🟠HF: https://huggingface.co/Qwen/Qwen3-235B-A22B-Instruct-2507 or https://huggingface.co/Qwen/Qwen3-235B-A22B-Instruct-2507-FP8 🟠ModelScope: https://modelscope.cn/models/Qwen/Qwen3-235B-A22B-Instruct-2507 or https://modelscope.cn/models/Qwen/Qwen3-235B-A22B-Instruct-2507-FP8 Модель действительно стала лучше. Qwen серьёзно заявляет о себе как об одном из лидеров open-source LLM. @ai_machinelearning_big_data #qwen#ml#ai#opensource