TGTGInsightаналитика telegramLIVE / telegram public index
К списку каналов
Machinelearning avatar

TGINSIGHT CHAT

Machinelearning

@ai_machinelearning_big_data

Технологии

Погружаемся в машинное обучение и Data Science Показываем как запускать любые LLm на пальцах. По всем вопросам - @haarrp @itchannels_telegram -🔥best channels Реестр РКН: clck.ru/3Fmqri

Подписчики31.3万Текущее число подписчиков
Постов1,009Проиндексировано постов
Охват359,300Просмотры последних постов
Последние посты

Последние посты

Тег: #qwen · 32 постов

当前筛选 #qwen清除筛选

Опубликован 10 апр.

🚀 Qwen Code обновился - теперь это почти автономный DevOps-агент Вышли версии v0.14.0 – v0.14.2 и это уже не просто тулза, а полноценная система для управления задачами, агентами и инфраструктурой. Что добавили: • Channels - управляешь Qwen Code прямо из Telegram, DingTalk или WeChat Пишешь с телефона - выполняется на сервере • Cron Jobs - регулярные AI-задачи Тесты каждые 30 минут, билд по утрам, мониторинг логов по расписанию • Qwen3.6-Plus - новый флагман 1M контекста и до 1000 бесплатных запросов в день • Sub-agent Model Selection - разные модели под разные задачи Тяжёлую модель на основную логику, быструю на подзадачи Экономия токенов без потери качества • /plan - режим планирования Сначала AI строит план по файлам и шагам, потом ты подтверждаешь и он исполняет • Follow-up Suggestions - после задачи предлагает следующие шаги Типа «добавить тесты?» или «проверить похожие файлы» • Adaptive Output Tokens - умный вывод По умолчанию 8K, но сам расширяется до 64K если не хватает • Ctrl+O - переключение режима ответа Подробный для дебага или компактный для работы https://github.com/QwenLM/qwen-code/releases @ai_machinelearning_big_data #qwen

25,400 views

Hashtags

Опубликован 8 апр.

🚀Qwen 3.6-Plus забрал все три первых места на OpenRouter. Одновременно. Alibaba выкатили новую модель, и она сразу заняла #1 в трех рейтингах OpenRouter: Daily, Weekly и Trending. Такого там раньше никто не делал. Модель уже вышла из триала и доступна в проде. По первым отзывам: латенси ниже, рассуждения на уровне топовых моделей, а цена за токен заметно приятнее конкурентов. Доступна через Qwen Cloud, Alibaba Cloud Model Studio, OpenRouter и Fireworks AI. Из коробки интегрируется с OpenClaw, Kilo Code, Cline, opencode и Qoder. Для тех, кто сейчас выбирает модель под продакшен, есть смысл погонять на своих задачах. Достижения на OpenRouter звучат красиво, но синтетические бенчмарки и реальные пайплайны - вещи разные. Интересно посмотреть, как она поведет себя на длинных контекстах и сложных мультиэтапных цепочках. openrouter.ai/qwen/qwen3.6-plus fireworks.ai/models/fireworks/qwen3p6-plus @ai_machinelearning_big_data #qwen

24,800 views

Hashtags

Опубликован 30 мар.

🌟Alibaba выпустили Qwen3.5-Omni Не мультимодальную сборку из отдельных компонентов, а единую нативную архитектуру, которая с первого слоя работает с текстом, изображением, аудио и видео одновременно. Главное, что отличает модель от конкурентов: Audio-Visual Vibe Coding. Описываешь голосом в камеру что нужно сделать, модель генерирует рабочий код сайта или игры. Плюс Script-Level Captioning, который превращает видео в полноценный сценарий с таймкодами и привязкой реплик к спикерам. • По бенчмаркам Qwen3.5-Omni-Plus бьёт Gemini 3.1 Pro в большинстве категорий. • По распознаванию речи WenetSpeech: 4.30/5.84 против 11.5/14.2. • По пониманию аудио VoiceBench: 93.1 против 88.9. • • По зрению MVBench: 79.0 против 74.1. По тексту MMLU-Redux: 94.2 против 95.9 (тут паритет). Итого 215 SOTA-результатов по подзадачам. Модель корректно реагирует на перебивание и не ломается от фонового шума), встроенный WebSearch и Function Calling, поддержка 74 языков в ASR и 29 в TTS. Доступна через Qwen Chat, HuggingFace и API Alibaba Cloud. Qwenchat: https://chat.qwen.ai Blog: https://qwen.ai/blog?id=qwen3.5-omni Hugging Face Offline Demo: https://huggingface.co/spaces/Qwen/Qwen3.5-Omni-Offline-Demo Hugging Face Online Demo:https://huggingface.co/spaces/Qwen/Qwen3.5-Omni-Online-Demo @ai_machinelearning_big_data #ai#ml#qwen

25,000 views

Hashtags

Опубликован 24 февр.

⚡️Alibaba выпустила семейство Qwen 3.5 Medium. Команда Qwen опубликовала серию моделей Qwen 3.5 Medium, в которую вошли: 🟠Qwen3.5-Flash 🟢Qwen3.5-35B-A3B 🟢Qwen3.5-122B-A10B 🟢Qwen3.5-27B. Сюрприз серии - Qwen3.5-35B-A3B. По бенчмаркам она превосходит Qwen3-235B-A22B-2507, у которого активных параметров было 22B то есть разница в эффективности больше чем в 7 раз. Qwen3.5-Flash - это продакшен-версия 35B-A3B, заточенная под агентные сценарии. Из коробки доступны контекстное окно в 1 млн. токенов и нативная поддержка fвызова функций. Миллионный контекст снимает необходимость строить RAG при работе с большими кодовыми базами или объемными документами, модель удерживает все в контексте. Старшие модели Qwen3.5-122B-A10B и Qwen3.5-27B ориентированы на сложные многошаговые задачи: планирование, цепочки рассуждений, долгосрочное выполнение инструкций. Для них применялся четырехэтапный пайплайн дообучения с холодным стартом через длинный СoT и RL на основе hbpjybyu-сигналов. 122B-A10B при 10B активных параметров по логической связности конкурирует с заметно более тяжелыми dense-моделями. Веса доступны на Hugging Face, Flash - только через Model Studio от Alibaba Cloud по цене примерно 10 центов за млн. входных и 40 центов за млн. выходных токенов 📌Лицензирование: Apache 2.0 License. 🟡Набор моделей @ai_machinelearning_big_data #AI#ML#LLM#Qwen#Alibiba

31,100 views

Опубликован 16 февр.

⚡️Релиз Qwen3.5-397B-A17B Это первый open-weight релиз в серии Qwen3.5. Лицензия Apache 2.0. Что интересного: • Мультимодальная модель Понимает текст и изображения • Создана для AI-агентов Оптимизирована для реальных задач: планирование, работа с инструментами, многошаговые действия. • Новая архитектура Hybrid Linear Attention + Sparse MoE + масштабное обучение с reinforcement learning. • Высокая скорость Заявлено что моделька примерно в 6- 9 раз быстрее, чем у предыдущей Qwen3-Max. • Глобальная модель Поддержка 201 языков и диалектов. Модели такого уровня в открытом доступе: - можно запускать AI у себя, без зависимости от API - полный контроль над данными - возможность строить собственных агентов и продукты - снижение стоимости на масштабах Qwen3.5-397B - реально в топе Модель либо: • на 1 месте, • либо рядом с GPT-5.2 / Claude Opus 4.5 / Gemini 3 Pro почти во всех бенчмарках. 🟡GitHub: https://github.com/QwenLM/Qwen3.5 🟡Чат: https://chat.qwen.ai 🟡Hugging Face: https://huggingface.co/collections/Qwen/qwen35 🟡Блог: https://qwen.ai/blog?id=qwen3.5 @ai_machinelearning_big_data #qwen#ai#llm#ml#opensource

30,300 views

Опубликован 10 февр.

🎨Qwen-Image-2.0 - новое поколение генерации изображений Qwen моделей Alibaba представили Qwen-Image-2.0 - модель, которая выводит генерацию визуала на уровень дизайнерских инструментов. Теперь ИИ не просто рисует картинки, а умеет создавать полноценные слайды, постеры и визуалы с аккуратной типографикой и высоким качеством деталей. Что умеет модель: - Написал абзац → получил готовый слайд - Описал сцену → получил фотореалистичное изображение в 2K - Добавил текст → он отображается корректно, без «ломаных» букв (русский поддерживает, но работает кривовато) Ключевые улучшения: - Профессиональная типографика - поддержка длинных промптов до 1K токенов для презентаций, постеров и комиксов - Нативное разрешение 2K с высокой детализацией - Точное и стабильное отображение текста - Единый режим генерации и редактирования изображений - Облегчённая архитектура — быстрее инференс и ниже стоимость Попробовать: https://chat.qwen.ai/?inputFeature=t2i Подробнее: https://qwen.ai/blog?id=qwen-image-2.0 @ai_machinelearning_big_data #qwen

30,300 views

Hashtags

Опубликован 4 февр.

🌟Qwen3-Coder-Next: агентная MoE-модель в линейке Qwen3-Coder. Qwen3-Coder-Next — открытая MoE-модель на 80 млрд. общих и 3 млрд. активных параметров с контекстным окном в 256К токенов для агентных задач. Модель учили через agentic training на 800 тыс. задачах, созданных из GitHub PR в реальных Docker-контейнерах, где она получала прямой фидбек от среды. Это развило навыки планирования в ризонинге, использования инструментов и умение восстанавливаться после ошибок выполнения. На претрейне расширили поддержку языков с 92 до 370, затем SFT на траекториях агентов, а потом - специализация экспертов (WebDev, QA, UX) с последующей дистилляцией в единую модель. В конце, через RL подтянули в задачах кодинга и математики, используя юнит-тесты как сигнал вознаграждения. Основной массив данных (те самые Docker-контейнеры) это по большей мере Python (202 тыс. инстансов) и JS/TS (175 тыс. инстансов). Для редких языков модель может чаще галлюцинировать, так как данных для RL и проверок через юнит-тесты там физически меньше. 🟡Бенчмарки 🟢70% на SWE-Bench Verified (используя SWE-Agent) 🟢44.3% на SWE-Bench Pro (почти как у топов) 🟢62.8% на SWE-Bench Multilingual (фикс багов на уровне репозитория на разных языках) Модель все-таки ощутимо отстает от Claude 4.5 Opus на сверхсложных архитектурных задачах с большими кодовыми базами. Иногда ей требуется слишком много итераций, чтобы нащупать верное решение и это вопросы к эффективности планирования. Фронтенд и UI - слабое место (авторы признают), а в киберсек-задачах (поиск уязвимостей и TAA) модель пока не дотягивает до человеческого уровня. Единственное, что спасает Qwen3-Coder-Next от забвения - это компактность и поддержка fill-in-the-middle для адекватного автодополнения кода в IDE. Qwen обещают улучшать ризонинг, принятие решении и поддержку дополнительных задач на основе фидбэка пользователей. 📌Лицензирование: Apache 2.0 License. 🟡Статья 🟡Модель 🟡Техотчет 🖥GitHub @ai_machinelearning_big_data #AI#ML#LLM#QwenCoderNext#Qwen

33,000 views

Опубликован 26 янв.

🚀Qwen3-Max-Thinking - вышла самая мощная reasoning-модель Qwen на сегодня Модель обучили на огромном масштабе и усилили продвинутым RL - в итоге модель сильна сразу в нескольких вещах: - логика и сложные рассуждения - знания и QA - работа с инструментами - агентные сценарии Ключевые фишки - Adaptive tool-use - сама понимает, когда подключать Search, Memory и Code Interpreter, без ручного выбора - Test-time scaling - многокруговая самопроверка и рефлексия, по бенчмаркам обходит Gemini 3 Pro на reasoning - отличная модель от сложной математики (98.0 на HMMT Feb) до агентного поиска (49.8 на HLE) Попробовать: https://chat.qwen.ai/ Блог: https://qwen.ai/blog?id=qwen3-max-thinking @ai_machinelearning_big_data #qwen#llm

29,900 views

Hashtags

Опубликован 22 янв.

🗣Qwen3-TTS - мощный open-source релиз (voice design + клонирование голоса) Qwen официально выпустили Qwen3-TTS и полностью открыли всю линейку моделей - Base / CustomVoice / VoiceDesign. Что внутри: - 5 моделей (0.6B и 1.8B классы) - Free-form Voice Design - генерация/редаквтирование голоса по описанию - Voice Cloning - клонирование голоса - 10 языков - 12Hz tokenizer - сильная компрессия аудио без сильной потери качества - полная поддержка fine-tuning - заявляют SOTA качество на ряде метрик Раньше лучшие генераторы были в закрытых API, а теперь появляется полноценный open-source стек TTS, где можно: - обучать под домен, - делать кастомные голоса, - и не зависеть от провайдера. ▪GitHub: https://github.com/QwenLM/Qwen3-TTS ▪Hugging Face: https://huggingface.co/collections/Qwen/qwen3-tts ▪Демо (HF): https://huggingface.co/spaces/Qwen/Qwen3-TTS ▪Блог: https://qwen.ai/blog?id=qwen3tts-0115 ▪Paper: https://github.com/QwenLM/Qwen3-TTS/blob/main/assets/Qwen3_TTS.pdf @ai_machinelearning_big_data #AI#TTS#Qwen#OpenSource#SpeechAI

32,900 views

Опубликован 31 дек.

🎄🎄Qwen-Image: обновление как раз к Новому году Свежая версия Qwen-Image получила заметный апгрейд качества. Модель стала генерировать намного реалистичнее и аккуратнее, особенно в сложных сценах. Что изменилось: • более естественные генерации людей, меньше «искусственного» эффекта • детальнее лица и мимика • улучшены натуральные текстуры: вода, шерсть, материалы, пейзажи • намного аккуратнее текст на картинках: лучше верстка и точность в композиции (с русским все грустно) Модель прошла более 10 000 слепых сравнений на AI Arena и показала результат уровня топов среди open-source, оставаясь конкурентной даже рядом с закрытыми решениями. ▪Qwen Chat: https://chat.qwen.ai/?inputFeature=t2i ▪Hugging Face: https://huggingface.co/Qwen/Qwen-Image-2512 ▪ModelScope: https://modelscope.ai/models/Qwen/Qwen-Image-2512 ▪GitHub: https://github.com/QwenLM/Qwen-Image ▪Блог: https://qwen.ai/blog?id=qwen-image-2512 ▪Демо HF: https://huggingface.co/spaces/Qwen/Qwen-Image-2512 ▪Демо ModelScope: https://modelscope.cn/aigc/imageGeneration ▪API:https://modelstudio.console.alibabacloud.com/?tab=doc#/doc/?type=model&url=2840914_2&modelId=group-qwen-image-max @ai_machinelearning_big_data #qwen#qwenimage#openaimodels#imagemodels

39,400 views

Опубликован 11 дек.

🧠 Qwen представляет режим Learn Mode! Learn Mode - обучающий режим в Qwen Chat, который превращает модель в ИИ-репетора. Построен на базе Qwen3-Max, Что делает Learn Mode: - Ведёт обучение через диалог - Подстраивается под ваш уровень подготовки и темп - Строит логические опоры, помогая работать со сложными темами - Формирует индивидуальную траекторию обучения под ваш стиль мышления Попробовать можно здесь: https://chat.qwen.ai/?inputFeature=learn @ai_machinelearning_big_data #Qwen

29,700 views

Hashtags

Опубликован 11 дек.

📌SAPO: RL-метод, который приручил нестабильные градиенты в LLM и MoE. Qwen предложил RL-метод SAPO (Soft Adaptive Policy Optimization), который решает ключевую проблему нестабильного обучения LLM и архитектур MoE и предлагает более разумный и мягкий подход к контролю над процессом обучения. Reinforcement Learning, RL - это ингредиент, превращающий просто большую языковую модель в рассуждающего помощника. Именно RL учит ИИ решать олимпиадные задачи по математике, писать чистый код и понимать связь между текстом и изображением. Но у RL есть обратная сторона: катастрофическая нестабильность обучения, особенно для гигантских моделей. Главная техническая головоломка - это контроль над коэффициентами значимости на уровне каждого токена. В архитектурах MoE, где разные части модели активируются для разных задач, эти коэффициенты могут бесконтрольно «скакать». Слишком большие колебания коэффициентов превращают четкие обучающие сигналы в помехи, дестабилизирующие всю систему. До сих пор стандартными инструментами были GRPO и GSPO, которые использовали принцип хард-клиппинга. Если коэффициент выходил за заданные рамки, градиент просто обнулялся. 🟠Минус первый: Потеря информации. Ценные, но выбивающиеся данные безжалостно отбрасывались. 🟠Минус второй: Невозможный баланс. Сделаешь рамки узкими - задушишь обучение. Сделаешь широкими - полезет паразитный шум. Для капризных MoE-архитектур эта дилемма особенно актуальна. SAPO предлагает отказаться от хард-клиппинга в пользу интеллектуального сглаживания. Вместо резкого обнуления SAPO использует плавную, адаптивную функцию (контролируемую температурой), которая мягко снижает влияние проблемных градиентов, но не обнуляет их полностью. Это создает непрерывные области доверия, внутри которых модель может учиться более гибко и безопасно. 🟡Красота SAPO - в универсальности. 🟢Как GSPO, но умнее. Если в длинном ответе сбился лишь один токен, GSPO наказывает всю последовательность. SAPO избирательно подавляет только «виновника», сохраняя полезные сигналы от остальных слов. Это резко повышает эффективность наборов обучающих данных. 🟢Как GRPO, но плавнее. Вместо резкого отключения градиента для плохого токена SAPO применяет постепенное затухание. Это предотвращает резкие рывки в обучении, обеспечивая плавную и стабильную настройку политики модели. Вишенка метода - это асимметричный температурный дизайн. SAPO по-разному обрабатывает «хорошие» и «плохие» обновления. Для токенов с негативным вкладом используется более высокая температура, заставляющая их влияние затухать быстрее и сильнее. Это простое правило надежно гасит наиболее опасные колебания, что на практике приводит к беспрецедентной стабильности процесса RL-обучения. 🟡Теорию подтвердили тестами. При обучении Qwen3-30B-A3B-Base, SAPO не только показал более стабильную кривую обучения , но и достиг более высоких результатов на сложных математических бенчмарках AIME25, HMMT25. Причем он сделал это без трудоемкого маршрутизирующего воспроизведения, которая требовалась конкурентам для работы с MoE. Успех повторили в масштабном эксперименте с мультимодальной Qwen3-VL-30B-A3B, где SAPO стабильно обошел аналоги в смешанных задачах на кодинг, логику и математику. 🟡Статья 🟡Arxiv @ai_machinelearning_big_data #AI#ML#LLM#MoE#SAPO#Qwen

27,500 views
НазадСтр. 1 из 3Вперёд