TGTGInsightаналитика telegramLIVE / telegram public index
К списку каналов
Machinelearning avatar

TGINSIGHT CHAT

Machinelearning

@ai_machinelearning_big_data

Технологии

Погружаемся в машинное обучение и Data Science Показываем как запускать любые LLm на пальцах. По всем вопросам - @haarrp @itchannels_telegram -🔥best channels Реестр РКН: clck.ru/3Fmqri

Подписчики31.3万Текущее число подписчиков
Постов1,009Проиндексировано постов
Охват31,100Просмотры последних постов
Последние посты

Последние посты

Тег: #alibiba · 1 постов

当前筛选 #alibiba清除筛选

Опубликован 24 февр.

⚡️Alibaba выпустила семейство Qwen 3.5 Medium. Команда Qwen опубликовала серию моделей Qwen 3.5 Medium, в которую вошли: 🟠Qwen3.5-Flash 🟢Qwen3.5-35B-A3B 🟢Qwen3.5-122B-A10B 🟢Qwen3.5-27B. Сюрприз серии - Qwen3.5-35B-A3B. По бенчмаркам она превосходит Qwen3-235B-A22B-2507, у которого активных параметров было 22B то есть разница в эффективности больше чем в 7 раз. Qwen3.5-Flash - это продакшен-версия 35B-A3B, заточенная под агентные сценарии. Из коробки доступны контекстное окно в 1 млн. токенов и нативная поддержка fвызова функций. Миллионный контекст снимает необходимость строить RAG при работе с большими кодовыми базами или объемными документами, модель удерживает все в контексте. Старшие модели Qwen3.5-122B-A10B и Qwen3.5-27B ориентированы на сложные многошаговые задачи: планирование, цепочки рассуждений, долгосрочное выполнение инструкций. Для них применялся четырехэтапный пайплайн дообучения с холодным стартом через длинный СoT и RL на основе hbpjybyu-сигналов. 122B-A10B при 10B активных параметров по логической связности конкурирует с заметно более тяжелыми dense-моделями. Веса доступны на Hugging Face, Flash - только через Model Studio от Alibaba Cloud по цене примерно 10 центов за млн. входных и 40 центов за млн. выходных токенов 📌Лицензирование: Apache 2.0 License. 🟡Набор моделей @ai_machinelearning_big_data #AI#ML#LLM#Qwen#Alibiba

31,100 views