🚀 Релиз:Qwen3-Next-80B-A3B - эффективная модель заточенная на работа работу с очень длинным контекстом!
🔹80B параметров, но активируется только 3B на токен → тренировка и инференс 10x дешевле и быстрее, чем у Qwen3-32B (особенно при 32K+ контексте).
🔹Гибридная архитектура: Gated DeltaNet + Gated Attention → сочетает скорость и точность.
🔹Ultra-sparse MoE: 512 экспертов, маршрутизируется 10 + 1 общий.
🔹Multi-Token Prediction → ускоренное speculative decoding.
🔹 По производительности обходит Qwen3-32B и приближается к Qwen3-235B в рассуждениях и long-context задачах.
🟢Qwen3-Next-80B-A3B-Instruct показатели почти на уровне 235B flagship.
🟢Qwen3-Next-80B-A3B-Thinking превосходит Gemini-2.5-Flash-Thinking.
▪Попробовать: https://chat.qwen.ai
▪Анонс: https://qwen.ai/blog?id=4074cca80393150c248e508aa62983f9cb7d27cd&from=research.latest-advancements-list
▪ HuggingFace: https://huggingface.co/collections/Qwen/qwen3-next-68c25fd6838e585db8eeea9d
▪ ModelScope: https://modelscope.cn/collections/Qwen3-Next-c314f23bd0264a
▪Kaggle: https://kaggle.com/models/qwen-lm/qwen3-next-80b
▪ Alibaba Cloud API: https://alibabacloud.com/help/en/model-studio/models#c5414da58bjgj
@ai_machinelearning_big_data
#AI#LLM#Qwen#DeepLearning#MoE#EfficientModels#LongContext#Reasonin
✴️Qwen3.6 35B A3B с дистилляцией под Opus 4.6 уже выложили в GGUF
Основа — Qwen3.6-35B-A3B, которую дообучили через LoRA, затем смержили в полный чекпоинт и перевели в GGUF. По карточке модели, обучение шло на reasoning-датасетах в стиле Claude Opus 4.6, а сам тюнинг был только текстовым — без дополнительного обучения на изображениях и видео.
Автор использовал три публичных reasoning-датасета, суммарно это около 14,2 тыс. примеров, обучал модель 2 эпохи с максимальной длиной последовательности 32 768 токенов. В GGUF уже лежат кванты Q4_K_M, Q5_K_M, Q6_K и Q8_0 размером 21,2 / 24,7 / 28,5 / 36,9 ГБ. Отдельно важно, что заявленный прирост в MMLU-Pro с 42,86% до 75,71% — это self-reported smoke-тест всего на 70 вопросах, а не полноценный большой релизный бенч, так что воспринимать это лучше как ранний сигнал, а не окончательный вердикт по качеству.
Источник: Hugging Face
🤑ForgetMe | Boosty
Приобрести подписку на любые сервисы
⏩@forgetshop_bot
#нейросети#llm#qwen
⚡️Qwen представила Qwen3-4B-Instruct-2507 и Qwen3-4B-Thinking-2507
Вышли две обновленные версии 4B-модели Qwen3 с упором на улучшенные навыки и работу с большим контекстом. (обновление от 6 августа)
🟡Qwen3-4B-Instruct-2507 — улучшенные общие способности, многоязычность, точное следование инструкциям на 256K токенов
🟡Qwen3-4B-Thinking-2507 — продвинутое рассуждение в логике, математике, науке и кодинге, для экспертных задач
Обе версии стали более выровненными, контекстно-чувствительными и точными в выводах.
Ссылки:
Hugging Face — Instruct | Thinking
ModelScope — Instruct | Thinking
🤑ForgetMe | Boosty | ForgetBench | ForgetGPT | ForgetAPI
#новости#llm#нейросети#qwen
☄️Сравнение ChatGPT-o1, DeepSeek и Qwen2.5-Max
Провели эксперимент с тремя нейросетями - ChatGPT-o1, китайскими DeepSeek и Qwen2.5-Max. Дали им одинаковую задачу с неработающим кодом таблицы.
Справились все по-разному
➡️DeepSeek удивил своим подходом – он меньше минуты выстраивал логическую цепочку рассуждений, показывая, как анализирует проблему и почему выбирает те или иные решения. Это выглядело необычно и позволило заглянуть в "процесс мышления" нейросети. После анализа он предложил конкретные блоки кода для замены.
Результат получился неоднозначный: часть проблем решилась, но полностью код не исправил проблему. При повторном обращении со скринами ошибок DeepSeek сообщил о перегрузке серверов и попросил продолжить в новом чате позже.
➡️ChatGPT-o1 пошел похожим путем в начале – его первое решение тоже исправило проблему частично. Но в отличие от китайского коллеги, он смог продолжить работу после получения скринов с ошибками. Потребовалось 5 итераций, и в итоге код заработал полностью.
➡️Qwen2.5-Max. У этой модели сразу обнаружились серьезные ограничения: нельзя загружать изображения, а размер сообщения ограничен 10 000 знаками. Наш код в 50 тыс. знаков просто не поместился целиком. Несмотря на предупреждение в промпте о том, что код будет отправлен частями, Qwen2.5-Max не стал дожидаться полной картины и начал исправлять код, не видя всех функций. Результат предсказуем – решение не заработало.
Технические особенности
• DeepSeek: без VPN, бесплатно. Принимает и Python-файлы, и скрины ошибок одновременно с описанием задачи. Ссылки для телефона: iOS, Android
• ChatGPT-o1: VPN, платно. Требуется копировать код в текст сообщения вместе со скринами
• Qwen2.5-Max: без VPN. Нет поддержки изображений, жесткое ограничение на размер сообщения
🔴Думаем, что говорить о полной замене ChatGPT пока еще преждевременно. Китайские аналоги отлично себя показывают с небольшими задачами, за работу с текстами поставили пять баллов, а вот с кодом немного подкачали, отдавать серьезные задачи целиком рановато. Но безусловный их плюс - доступность из РФ.
#ИИ#AI#Нейросети#DeepSeek#Qwen#ChatGPT
———
#Инструменты#LLM
✍️Подписывайтесь: @aiforproduct
Qwen выкатил интересную модель, которая разбивает обычные картинки на слои – как принято в этом вашем фотошопе
Мда теперь нужно думать как эту тему вкорячить к себе в продукт)
Вот тут детали, тут демо, модель уже в опенсорсе
#qwen| AcidCrunch
✴️В Qwen встряска: техлид Junyang Lin объявил об уходе сразу после релиза Qwen 3.5
Вокруг Qwen (Alibaba) разгорается история с неприятным послевкусием: Junyang Lin, которого называют техлидом и одним из ключевых лиц проекта, написал в X короткое «me stepping down. bye my beloved qwen» — без объяснения причин. Это случилось почти сразу после выхода Qwen 3.5 Small Model Series, из-за чего в комьюнити начались обсуждения, что произошло внутри команды.
Дальше стало только громче: в ответах коллег появились намёки, что уход мог быть не совсем добровольным (возможные внутренние перестановки или политика после релиза). Параллельно СМИ пишут, что вслед за ним из Qwen ушли и другие заметные участники, включая руководителя пост-тренинга Yu Bowen, а ранее упоминался уход Hui Binyuan. При этом официального комментария Alibaba на момент публикаций не было.
🤑ForgetMe | Boosty
Приобрести подписку на любые сервисы
⏩@forgetshop_bot
#нейросети#qwen#новости
✴️Вышла Qwen3-Max-Thinking — мощная модель frontier-уровня
Qwen представили Qwen3-Max-Thinking, и по метрикам модель выглядит очень серьёзно
Ключевые результаты бенчмарков:
🟡HLE 30.2 — примерно уровень Claude Opus 4.5, а с test-time-scaling обещают ещё выше
🟡SWE Verified 75.3 — немного ниже Opus, но на уровне Gemini 3 Pro
🟡IMO 83.9 — обходит Gemini 3 Pro, сильный результат по сложному рассуждению
Помимо цифр, заявлены улучшенный tool calling и стабильное следование инструкциям, даже при работе с длинным контекстом.
Попробовать модель:
https://chat.qwen.ai/
🤑ForgetMe | Boosty
Приобрести подписку на любые сервисы
⏩@forgetshop_bot
#нейросети#новости#qwen
✴️Qwen-Image-2512: декабрьский апгрейд с упором на реализм и текст
Команда Qwen подвезла праздничное обновление Qwen-Image-2512 — свежую версию декабрём, как раз к Новому году. Модель нацелена на более «живые» картинки и аккуратную работу с буквами в кадре, оставаясь в открытом доступе.
Что улучшили:
🟡Люди выглядят естественнее. Ушёл характерный «ИИ-блеск», появились более детальные лица и мимика.
🟡Природа и материалы стали фактурнее. Трава, вода, шерсть и поверхности прорисовываются заметно резче.
🟡Текст в изображении — ровнее и точнее. Компоновка и попадание в макет стали предсказуемее, меньше артефактов.
По итогам 10 000+ слепых сравнений на AI Arena модель заняла позицию сильнейшей среди open-source решений и уверенно держится рядом с закрытыми системами по качеству.
Попробовать и скачать:
🟡Qwen Chat (t2i)
🟡Hugging Face — модель • Демо
🟡ModelScope — модель • Демо
🟡GitHub — репозиторий • Блог-анонс
🟡API (ModelStudio)
🤑ForgetMe | Boosty
Приобрести подписку на любые сервисы
⏩@forgetshop_bot
#нейросети#новости#qwen
📛Новая модель генерации изображений от китайцев
Вчера одна китайская лаборатория под покровительством Алибабы (qwen, wan и тд) представили Z-Image-Turbo (да она реально так называется). Качество генерации очень неплохое, но пока не выкатили версию под редактирование, но зато нет цензуры, подробнее:
Линейка состоит из трёх вариантов (база — 6B), причём Turbo уже доступен и акцентирован на скорости и эффективности, а Base и Edit заявлены «скоро».
🟡Z-Image-Turbo (дистиллированная) — ~8 NFEs, субсекундная задержка на H800-классе, 16 ГБ VRAM достаточно; сильна в фотореализме, следовании промптам и двуязычном тексте.
🟡Z-Image-Base — недистиллированная версия для дообучения и кастомизации сообществом (скоро).
🟡Z-Image-Edit — специализация на редактировании (в т.ч. img2img по текстовым промптам, скоро).
Где попробовать и почитать:Hugging Face: Z-Image-Turbo • Demo (HF Spaces) • GitHub (код и доки) • Comfy Workflow
🤑ForgetMe | Boosty
Приобрести подписку на любые сервисы
⏩@forgetshop_bot
#нейросети#новости#qwen
✴️Qwen3 Max Thinking на подлёте, релиз уже на этой неделе
🤑ForgetMe | Boosty
Приобрести подписку на любые сервисы
⏩@forgetshop_bot
#нейросети#новости#qwen
✴️Qwen запускает персонализацию: Memory и кастомные системные инструкции
В Qwen Chat начали поэтапно включать функции персонализации: Memory для запоминания важных фактов о ваших предпочтениях и custom system instruct для задания стиля и правил ответа на уровне всего диалога. Пока это ограниченное тестирование, доступ расширяют постепенно.
Попробовать можно здесь: chat.qwen.ai.
🤑ForgetMe | Boosty
Приобрести подписку на любые сервисы
⏩@forgetshop_bot
#нейросети#новости#qwen
🤖Qwen3-Max: новая вершина линейки Qwen для кода, агентов и сложных задач
Qwen представила Qwen3-Max — на сегодня самую мощную модель семейства. Версия Qwen3-Max-Instruct заметно прибавила в программировании и агентных сценариях, а по уровню качества её уже сравнивают с флагманами рынка вроде ChatGPT 5 и Claude Opus 4.
Что умеет на практике:
🟡 уверенно решает реальные задачи по разработке и выдаёт быстрый, рабочий код;
🟡 держит сложную логику и рассуждения, отвечает на вопросы, требующие глубоких знаний;
🟡 справляется с олимпиадной математикой и многошаговыми проблемами.
Отдельно отметили Qwen3-Max-Thinking: в «тяжёлом» режиме модель показывает почти эталонные результаты. Рост обеспечили большие данные, мощные вычисления и RL-тренировка (обучение с подкреплением).
Проверить в деле:Qwen Chat
Подробнее о релизе:Пост в блоге Qwen
🤑ForgetMe | Boosty
Приобрести подписку на любые сервисы
⏩@forgetshop_bot
#нейросети#новости#qwen
✴️Qwen3-Next-80B-A3B: «тонкий» 80B с активными 3B
Представили Qwen3-Next-80B-A3B — модель на 80B параметров, у которой за каждый токен активируется лишь ~3B. За счёт такой сверхразреженной схемы обещают в 10 раз дешевле обучение и в 10 раз быстрее инференс, чем у Qwen3-32B, особенно на длинных контекстах 32K+. В основе — гибридная архитектура Gated DeltaNet + Gated Attention, совмещающая скорость и точность извлечения.
По заявлению команды, Qwen3-Next-80B-A3B-Instruct по качеству подбирается к флагману 235B, а версия Thinkingобгоняет Gemini-2.5-Flash-Thinking на задачах рассуждения. Модель использует ультразряжённый MoE: 512 экспертов, 10 маршрутизируются + 1 общий, а также Multi-Token Prediction для «турбо» speculative decoding — это дополнительно ускоряет генерацию при длинном вводе и сложных запросах.
Модель вышла сегодня ночью, но руки написать пост дошли только сейчас)
Попробовать и почитать:
🟡Чат:chat.qwen.ai
🟡Блог:Анонс и технические детали
🟡Hugging Face:Коллекция Qwen3-Next
🟡ModelScope:Подборка Qwen3-Next
🟡Kaggle Models:Qwen3-Next-80B
🟡Alibaba Cloud API:Model Studio — Qwen
🤑ForgetMe | Boosty
Приобрести подписку на любые сервисы
⏩@forgetshop_bot
#нейросети#новости#qwen