TGTGInsightаналитика telegramLIVE / telegram public index
← Machinelearning

TGINSIGHT SIMILAR POSTS

Найти похожее

Источник @ai_machinelearning_big_data · Post #8519 · 11 сент.

🚀 Релиз:Qwen3-Next-80B-A3B - эффективная модель заточенная на работа работу с очень длинным контекстом! 🔹80B параметров, но активируется только 3B на токен → тренировка и инференс 10x дешевле и быстрее, чем у Qwen3-32B (особенно при 32K+ контексте). 🔹Гибридная архитектура: Gated DeltaNet + Gated Attention → сочетает скорость и точность. 🔹Ultra-sparse MoE: 512 экспертов, маршрутизируется 10 + 1 общий. 🔹Multi-Token Prediction → ускоренное speculative decoding. 🔹 По производительности обходит Qwen3-32B и приближается к Qwen3-235B в рассуждениях и long-context задачах. 🟢Qwen3-Next-80B-A3B-Instruct показатели почти на уровне 235B flagship. 🟢Qwen3-Next-80B-A3B-Thinking превосходит Gemini-2.5-Flash-Thinking. ▪Попробовать: https://chat.qwen.ai ▪Анонс: https://qwen.ai/blog?id=4074cca80393150c248e508aa62983f9cb7d27cd&from=research.latest-advancements-list ▪ HuggingFace: https://huggingface.co/collections/Qwen/qwen3-next-68c25fd6838e585db8eeea9d ▪ ModelScope: https://modelscope.cn/collections/Qwen3-Next-c314f23bd0264a ▪Kaggle: https://kaggle.com/models/qwen-lm/qwen3-next-80b ▪ Alibaba Cloud API: https://alibabacloud.com/help/en/model-studio/models#c5414da58bjgj @ai_machinelearning_big_data #AI#LLM#Qwen#DeepLearning#MoE#EfficientModels#LongContext#Reasonin

Результаты

Найдено 13 похожих постов

ForgetMe | Нейросети

@forgetmeai · Post #6019 · 20.04.2026, 17:40

✴️Qwen3.6 35B A3B с дистилляцией под Opus 4.6 уже выложили в GGUF Основа — Qwen3.6-35B-A3B, которую дообучили через LoRA, затем смержили в полный чекпоинт и перевели в GGUF. По карточке модели, обучение шло на reasoning-датасетах в стиле Claude Opus 4.6, а сам тюнинг был только текстовым — без дополнительного обучения на изображениях и видео. Автор использовал три публичных reasoning-датасета, суммарно это около 14,2 тыс. примеров, обучал модель 2 эпохи с максимальной длиной последовательности 32 768 токенов. В GGUF уже лежат кванты Q4_K_M, Q5_K_M, Q6_K и Q8_0 размером 21,2 / 24,7 / 28,5 / 36,9 ГБ. Отдельно важно, что заявленный прирост в MMLU-Pro с 42,86% до 75,71% — это self-reported smoke-тест всего на 70 вопросах, а не полноценный большой релизный бенч, так что воспринимать это лучше как ранний сигнал, а не окончательный вердикт по качеству. Источник: Hugging Face 🤑ForgetMe | Boosty Приобрести подписку на любые сервисы ⏩@forgetshop_bot #нейросети#llm#qwen

ForgetMe | Нейросети

@forgetmeai · Post #4924 · 08.08.2025, 09:29

⚡️Qwen представила Qwen3-4B-Instruct-2507 и Qwen3-4B-Thinking-2507 Вышли две обновленные версии 4B-модели Qwen3 с упором на улучшенные навыки и работу с большим контекстом. (обновление от 6 августа) 🟡Qwen3-4B-Instruct-2507 — улучшенные общие способности, многоязычность, точное следование инструкциям на 256K токенов 🟡Qwen3-4B-Thinking-2507 — продвинутое рассуждение в логике, математике, науке и кодинге, для экспертных задач Обе версии стали более выровненными, контекстно-чувствительными и точными в выводах. Ссылки: Hugging Face — Instruct | Thinking ModelScope — Instruct | Thinking 🤑ForgetMe | Boosty | ForgetBench | ForgetGPT | ForgetAPI #новости#llm#нейросети#qwen

AI для продакта 🧠🚀

@aiforproduct · Post #574 · 29.01.2025, 11:34

☄️Сравнение ChatGPT-o1, DeepSeek и Qwen2.5-Max Провели эксперимент с тремя нейросетями - ChatGPT-o1, китайскими DeepSeek и Qwen2.5-Max. Дали им одинаковую задачу с неработающим кодом таблицы. Справились все по-разному ➡️DeepSeek удивил своим подходом – он меньше минуты выстраивал логическую цепочку рассуждений, показывая, как анализирует проблему и почему выбирает те или иные решения. Это выглядело необычно и позволило заглянуть в "процесс мышления" нейросети. После анализа он предложил конкретные блоки кода для замены. Результат получился неоднозначный: часть проблем решилась, но полностью код не исправил проблему. При повторном обращении со скринами ошибок DeepSeek сообщил о перегрузке серверов и попросил продолжить в новом чате позже. ➡️ChatGPT-o1 пошел похожим путем в начале – его первое решение тоже исправило проблему частично. Но в отличие от китайского коллеги, он смог продолжить работу после получения скринов с ошибками. Потребовалось 5 итераций, и в итоге код заработал полностью. ➡️Qwen2.5-Max. У этой модели сразу обнаружились серьезные ограничения: нельзя загружать изображения, а размер сообщения ограничен 10 000 знаками. Наш код в 50 тыс. знаков просто не поместился целиком. Несмотря на предупреждение в промпте о том, что код будет отправлен частями, Qwen2.5-Max не стал дожидаться полной картины и начал исправлять код, не видя всех функций. Результат предсказуем – решение не заработало. Технические особенности • DeepSeek: без VPN, бесплатно. Принимает и Python-файлы, и скрины ошибок одновременно с описанием задачи. Ссылки для телефона: iOS, Android • ChatGPT-o1: VPN, платно. Требуется копировать код в текст сообщения вместе со скринами • Qwen2.5-Max: без VPN. Нет поддержки изображений, жесткое ограничение на размер сообщения 🔴Думаем, что говорить о полной замене ChatGPT пока еще преждевременно. Китайские аналоги отлично себя показывают с небольшими задачами, за работу с текстами поставили пять баллов, а вот с кодом немного подкачали, отдавать серьезные задачи целиком рановато. Но безусловный их плюс - доступность из РФ. #ИИ#AI#Нейросети#DeepSeek#Qwen#ChatGPT ——— #Инструменты#LLM ✍️Подписывайтесь: @aiforproduct

Qwen выкатил интересную модель, которая разбивает обычные картинки на слои – как принято в этом вашем фотошопе Мда теперь нужно думать как эту тему вкорячить к себе в продукт) Вот тут детали, тут демо, модель уже в опенсорсе #qwen| AcidCrunch

Hashtags

ForgetMe | Нейросети

@forgetmeai · Post #5879 · 04.03.2026, 14:26

✴️В Qwen встряска: техлид Junyang Lin объявил об уходе сразу после релиза Qwen 3.5 Вокруг Qwen (Alibaba) разгорается история с неприятным послевкусием: Junyang Lin, которого называют техлидом и одним из ключевых лиц проекта, написал в X короткое «me stepping down. bye my beloved qwen» — без объяснения причин. Это случилось почти сразу после выхода Qwen 3.5 Small Model Series, из-за чего в комьюнити начались обсуждения, что произошло внутри команды. Дальше стало только громче: в ответах коллег появились намёки, что уход мог быть не совсем добровольным (возможные внутренние перестановки или политика после релиза). Параллельно СМИ пишут, что вслед за ним из Qwen ушли и другие заметные участники, включая руководителя пост-тренинга Yu Bowen, а ранее упоминался уход Hui Binyuan. При этом официального комментария Alibaba на момент публикаций не было. 🤑ForgetMe | Boosty Приобрести подписку на любые сервисы ⏩@forgetshop_bot #нейросети#qwen#новости

ForgetMe | Нейросети

@forgetmeai · Post #5777 · 26.01.2026, 17:03

✴️Вышла Qwen3-Max-Thinking — мощная модель frontier-уровня Qwen представили Qwen3-Max-Thinking, и по метрикам модель выглядит очень серьёзно Ключевые результаты бенчмарков: 🟡HLE 30.2 — примерно уровень Claude Opus 4.5, а с test-time-scaling обещают ещё выше 🟡SWE Verified 75.3 — немного ниже Opus, но на уровне Gemini 3 Pro 🟡IMO 83.9 — обходит Gemini 3 Pro, сильный результат по сложному рассуждению Помимо цифр, заявлены улучшенный tool calling и стабильное следование инструкциям, даже при работе с длинным контекстом. Попробовать модель: https://chat.qwen.ai/ 🤑ForgetMe | Boosty Приобрести подписку на любые сервисы ⏩@forgetshop_bot #нейросети#новости#qwen

ForgetMe | Нейросети

@forgetmeai · Post #5735 · 02.01.2026, 13:31

✴️Qwen-Image-2512: декабрьский апгрейд с упором на реализм и текст Команда Qwen подвезла праздничное обновление Qwen-Image-2512 — свежую версию декабрём, как раз к Новому году. Модель нацелена на более «живые» картинки и аккуратную работу с буквами в кадре, оставаясь в открытом доступе. Что улучшили: 🟡Люди выглядят естественнее. Ушёл характерный «ИИ-блеск», появились более детальные лица и мимика. 🟡Природа и материалы стали фактурнее. Трава, вода, шерсть и поверхности прорисовываются заметно резче. 🟡Текст в изображении — ровнее и точнее. Компоновка и попадание в макет стали предсказуемее, меньше артефактов. По итогам 10 000+ слепых сравнений на AI Arena модель заняла позицию сильнейшей среди open-source решений и уверенно держится рядом с закрытыми системами по качеству. Попробовать и скачать: 🟡Qwen Chat (t2i) 🟡Hugging Face — модель • Демо 🟡ModelScope — модель • Демо 🟡GitHub — репозиторий • Блог-анонс 🟡API (ModelStudio) 🤑ForgetMe | Boosty Приобрести подписку на любые сервисы ⏩@forgetshop_bot #нейросети#новости#qwen

ForgetMe | Нейросети

@forgetmeai · Post #5657 · 28.11.2025, 18:26

📛Новая модель генерации изображений от китайцев Вчера одна китайская лаборатория под покровительством Алибабы (qwen, wan и тд) представили Z-Image-Turbo (да она реально так называется). Качество генерации очень неплохое, но пока не выкатили версию под редактирование, но зато нет цензуры, подробнее: Линейка состоит из трёх вариантов (база — 6B), причём Turbo уже доступен и акцентирован на скорости и эффективности, а Base и Edit заявлены «скоро». 🟡Z-Image-Turbo (дистиллированная) — ~8 NFEs, субсекундная задержка на H800-классе, 16 ГБ VRAM достаточно; сильна в фотореализме, следовании промптам и двуязычном тексте. 🟡Z-Image-Base — недистиллированная версия для дообучения и кастомизации сообществом (скоро). 🟡Z-Image-Edit — специализация на редактировании (в т.ч. img2img по текстовым промптам, скоро). Где попробовать и почитать:Hugging Face: Z-Image-Turbo • Demo (HF Spaces) • GitHub (код и доки) • Comfy Workflow 🤑ForgetMe | Boosty Приобрести подписку на любые сервисы ⏩@forgetshop_bot #нейросети#новости#qwen

ForgetMe | Нейросети

@forgetmeai · Post #5370 · 05.10.2025, 10:34

✴️Qwen запускает персонализацию: Memory и кастомные системные инструкции В Qwen Chat начали поэтапно включать функции персонализации: Memory для запоминания важных фактов о ваших предпочтениях и custom system instruct для задания стиля и правил ответа на уровне всего диалога. Пока это ограниченное тестирование, доступ расширяют постепенно. Попробовать можно здесь: chat.qwen.ai. 🤑ForgetMe | Boosty Приобрести подписку на любые сервисы ⏩@forgetshop_bot #нейросети#новости#qwen

ForgetMe | Нейросети

@forgetmeai · Post #5284 · 25.09.2025, 03:41

🤖Qwen3-Max: новая вершина линейки Qwen для кода, агентов и сложных задач Qwen представила Qwen3-Max — на сегодня самую мощную модель семейства. Версия Qwen3-Max-Instruct заметно прибавила в программировании и агентных сценариях, а по уровню качества её уже сравнивают с флагманами рынка вроде ChatGPT 5 и Claude Opus 4. Что умеет на практике: 🟡 уверенно решает реальные задачи по разработке и выдаёт быстрый, рабочий код; 🟡 держит сложную логику и рассуждения, отвечает на вопросы, требующие глубоких знаний; 🟡 справляется с олимпиадной математикой и многошаговыми проблемами. Отдельно отметили Qwen3-Max-Thinking: в «тяжёлом» режиме модель показывает почти эталонные результаты. Рост обеспечили большие данные, мощные вычисления и RL-тренировка (обучение с подкреплением). Проверить в деле:Qwen Chat Подробнее о релизе:Пост в блоге Qwen 🤑ForgetMe | Boosty Приобрести подписку на любые сервисы ⏩@forgetshop_bot #нейросети#новости#qwen

ForgetMe | Нейросети

@forgetmeai · Post #5215 · 12.09.2025, 13:52

✴️Qwen3-Next-80B-A3B: «тонкий» 80B с активными 3B Представили Qwen3-Next-80B-A3B — модель на 80B параметров, у которой за каждый токен активируется лишь ~3B. За счёт такой сверхразреженной схемы обещают в 10 раз дешевле обучение и в 10 раз быстрее инференс, чем у Qwen3-32B, особенно на длинных контекстах 32K+. В основе — гибридная архитектура Gated DeltaNet + Gated Attention, совмещающая скорость и точность извлечения. По заявлению команды, Qwen3-Next-80B-A3B-Instruct по качеству подбирается к флагману 235B, а версия Thinkingобгоняет Gemini-2.5-Flash-Thinking на задачах рассуждения. Модель использует ультразряжённый MoE: 512 экспертов, 10 маршрутизируются + 1 общий, а также Multi-Token Prediction для «турбо» speculative decoding — это дополнительно ускоряет генерацию при длинном вводе и сложных запросах. Модель вышла сегодня ночью, но руки написать пост дошли только сейчас) Попробовать и почитать: 🟡Чат:chat.qwen.ai 🟡Блог:Анонс и технические детали 🟡Hugging Face:Коллекция Qwen3-Next 🟡ModelScope:Подборка Qwen3-Next 🟡Kaggle Models:Qwen3-Next-80B 🟡Alibaba Cloud API:Model Studio — Qwen 🤑ForgetMe | Boosty Приобрести подписку на любые сервисы ⏩@forgetshop_bot #нейросети#новости#qwen

12
НазадСтр. 1 из 2Вперёд