TGTGInsightаналитика telegramLIVE / telegram public index
← Machinelearning

TGINSIGHT SIMILAR POSTS

Найти похожее

Источник @ai_machinelearning_big_data · Post #9228 · 11 дек.

📌SAPO: RL-метод, который приручил нестабильные градиенты в LLM и MoE. Qwen предложил RL-метод SAPO (Soft Adaptive Policy Optimization), который решает ключевую проблему нестабильного обучения LLM и архитектур MoE и предлагает более разумный и мягкий подход к контролю над процессом обучения. Reinforcement Learning, RL - это ингредиент, превращающий просто большую языковую модель в рассуждающего помощника. Именно RL учит ИИ решать олимпиадные задачи по математике, писать чистый код и понимать связь между текстом и изображением. Но у RL есть обратная сторона: катастрофическая нестабильность обучения, особенно для гигантских моделей. Главная техническая головоломка - это контроль над коэффициентами значимости на уровне каждого токена. В архитектурах MoE, где разные части модели активируются для разных задач, эти коэффициенты могут бесконтрольно «скакать». Слишком большие колебания коэффициентов превращают четкие обучающие сигналы в помехи, дестабилизирующие всю систему. До сих пор стандартными инструментами были GRPO и GSPO, которые использовали принцип хард-клиппинга. Если коэффициент выходил за заданные рамки, градиент просто обнулялся. 🟠Минус первый: Потеря информации. Ценные, но выбивающиеся данные безжалостно отбрасывались. 🟠Минус второй: Невозможный баланс. Сделаешь рамки узкими - задушишь обучение. Сделаешь широкими - полезет паразитный шум. Для капризных MoE-архитектур эта дилемма особенно актуальна. SAPO предлагает отказаться от хард-клиппинга в пользу интеллектуального сглаживания. Вместо резкого обнуления SAPO использует плавную, адаптивную функцию (контролируемую температурой), которая мягко снижает влияние проблемных градиентов, но не обнуляет их полностью. Это создает непрерывные области доверия, внутри которых модель может учиться более гибко и безопасно. 🟡Красота SAPO - в универсальности. 🟢Как GSPO, но умнее. Если в длинном ответе сбился лишь один токен, GSPO наказывает всю последовательность. SAPO избирательно подавляет только «виновника», сохраняя полезные сигналы от остальных слов. Это резко повышает эффективность наборов обучающих данных. 🟢Как GRPO, но плавнее. Вместо резкого отключения градиента для плохого токена SAPO применяет постепенное затухание. Это предотвращает резкие рывки в обучении, обеспечивая плавную и стабильную настройку политики модели. Вишенка метода - это асимметричный температурный дизайн. SAPO по-разному обрабатывает «хорошие» и «плохие» обновления. Для токенов с негативным вкладом используется более высокая температура, заставляющая их влияние затухать быстрее и сильнее. Это простое правило надежно гасит наиболее опасные колебания, что на практике приводит к беспрецедентной стабильности процесса RL-обучения. 🟡Теорию подтвердили тестами. При обучении Qwen3-30B-A3B-Base, SAPO не только показал более стабильную кривую обучения , но и достиг более высоких результатов на сложных математических бенчмарках AIME25, HMMT25. Причем он сделал это без трудоемкого маршрутизирующего воспроизведения, которая требовалась конкурентам для работы с MoE. Успех повторили в масштабном эксперименте с мультимодальной Qwen3-VL-30B-A3B, где SAPO стабильно обошел аналоги в смешанных задачах на кодинг, логику и математику. 🟡Статья 🟡Arxiv @ai_machinelearning_big_data #AI#ML#LLM#MoE#SAPO#Qwen

Результаты

Найдено 13 похожих постов

ForgetMe | Нейросети

@forgetmeai · Post #6019 · 20.04.2026, 17:40

✴️Qwen3.6 35B A3B с дистилляцией под Opus 4.6 уже выложили в GGUF Основа — Qwen3.6-35B-A3B, которую дообучили через LoRA, затем смержили в полный чекпоинт и перевели в GGUF. По карточке модели, обучение шло на reasoning-датасетах в стиле Claude Opus 4.6, а сам тюнинг был только текстовым — без дополнительного обучения на изображениях и видео. Автор использовал три публичных reasoning-датасета, суммарно это около 14,2 тыс. примеров, обучал модель 2 эпохи с максимальной длиной последовательности 32 768 токенов. В GGUF уже лежат кванты Q4_K_M, Q5_K_M, Q6_K и Q8_0 размером 21,2 / 24,7 / 28,5 / 36,9 ГБ. Отдельно важно, что заявленный прирост в MMLU-Pro с 42,86% до 75,71% — это self-reported smoke-тест всего на 70 вопросах, а не полноценный большой релизный бенч, так что воспринимать это лучше как ранний сигнал, а не окончательный вердикт по качеству. Источник: Hugging Face 🤑ForgetMe | Boosty Приобрести подписку на любые сервисы ⏩@forgetshop_bot #нейросети#llm#qwen

ForgetMe | Нейросети

@forgetmeai · Post #4924 · 08.08.2025, 09:29

⚡️Qwen представила Qwen3-4B-Instruct-2507 и Qwen3-4B-Thinking-2507 Вышли две обновленные версии 4B-модели Qwen3 с упором на улучшенные навыки и работу с большим контекстом. (обновление от 6 августа) 🟡Qwen3-4B-Instruct-2507 — улучшенные общие способности, многоязычность, точное следование инструкциям на 256K токенов 🟡Qwen3-4B-Thinking-2507 — продвинутое рассуждение в логике, математике, науке и кодинге, для экспертных задач Обе версии стали более выровненными, контекстно-чувствительными и точными в выводах. Ссылки: Hugging Face — Instruct | Thinking ModelScope — Instruct | Thinking 🤑ForgetMe | Boosty | ForgetBench | ForgetGPT | ForgetAPI #новости#llm#нейросети#qwen

AI для продакта 🧠🚀

@aiforproduct · Post #574 · 29.01.2025, 11:34

☄️Сравнение ChatGPT-o1, DeepSeek и Qwen2.5-Max Провели эксперимент с тремя нейросетями - ChatGPT-o1, китайскими DeepSeek и Qwen2.5-Max. Дали им одинаковую задачу с неработающим кодом таблицы. Справились все по-разному ➡️DeepSeek удивил своим подходом – он меньше минуты выстраивал логическую цепочку рассуждений, показывая, как анализирует проблему и почему выбирает те или иные решения. Это выглядело необычно и позволило заглянуть в "процесс мышления" нейросети. После анализа он предложил конкретные блоки кода для замены. Результат получился неоднозначный: часть проблем решилась, но полностью код не исправил проблему. При повторном обращении со скринами ошибок DeepSeek сообщил о перегрузке серверов и попросил продолжить в новом чате позже. ➡️ChatGPT-o1 пошел похожим путем в начале – его первое решение тоже исправило проблему частично. Но в отличие от китайского коллеги, он смог продолжить работу после получения скринов с ошибками. Потребовалось 5 итераций, и в итоге код заработал полностью. ➡️Qwen2.5-Max. У этой модели сразу обнаружились серьезные ограничения: нельзя загружать изображения, а размер сообщения ограничен 10 000 знаками. Наш код в 50 тыс. знаков просто не поместился целиком. Несмотря на предупреждение в промпте о том, что код будет отправлен частями, Qwen2.5-Max не стал дожидаться полной картины и начал исправлять код, не видя всех функций. Результат предсказуем – решение не заработало. Технические особенности • DeepSeek: без VPN, бесплатно. Принимает и Python-файлы, и скрины ошибок одновременно с описанием задачи. Ссылки для телефона: iOS, Android • ChatGPT-o1: VPN, платно. Требуется копировать код в текст сообщения вместе со скринами • Qwen2.5-Max: без VPN. Нет поддержки изображений, жесткое ограничение на размер сообщения 🔴Думаем, что говорить о полной замене ChatGPT пока еще преждевременно. Китайские аналоги отлично себя показывают с небольшими задачами, за работу с текстами поставили пять баллов, а вот с кодом немного подкачали, отдавать серьезные задачи целиком рановато. Но безусловный их плюс - доступность из РФ. #ИИ#AI#Нейросети#DeepSeek#Qwen#ChatGPT ——— #Инструменты#LLM ✍️Подписывайтесь: @aiforproduct

Qwen выкатил интересную модель, которая разбивает обычные картинки на слои – как принято в этом вашем фотошопе Мда теперь нужно думать как эту тему вкорячить к себе в продукт) Вот тут детали, тут демо, модель уже в опенсорсе #qwen| AcidCrunch

Hashtags

ForgetMe | Нейросети

@forgetmeai · Post #5879 · 04.03.2026, 14:26

✴️В Qwen встряска: техлид Junyang Lin объявил об уходе сразу после релиза Qwen 3.5 Вокруг Qwen (Alibaba) разгорается история с неприятным послевкусием: Junyang Lin, которого называют техлидом и одним из ключевых лиц проекта, написал в X короткое «me stepping down. bye my beloved qwen» — без объяснения причин. Это случилось почти сразу после выхода Qwen 3.5 Small Model Series, из-за чего в комьюнити начались обсуждения, что произошло внутри команды. Дальше стало только громче: в ответах коллег появились намёки, что уход мог быть не совсем добровольным (возможные внутренние перестановки или политика после релиза). Параллельно СМИ пишут, что вслед за ним из Qwen ушли и другие заметные участники, включая руководителя пост-тренинга Yu Bowen, а ранее упоминался уход Hui Binyuan. При этом официального комментария Alibaba на момент публикаций не было. 🤑ForgetMe | Boosty Приобрести подписку на любые сервисы ⏩@forgetshop_bot #нейросети#qwen#новости

ForgetMe | Нейросети

@forgetmeai · Post #5777 · 26.01.2026, 17:03

✴️Вышла Qwen3-Max-Thinking — мощная модель frontier-уровня Qwen представили Qwen3-Max-Thinking, и по метрикам модель выглядит очень серьёзно Ключевые результаты бенчмарков: 🟡HLE 30.2 — примерно уровень Claude Opus 4.5, а с test-time-scaling обещают ещё выше 🟡SWE Verified 75.3 — немного ниже Opus, но на уровне Gemini 3 Pro 🟡IMO 83.9 — обходит Gemini 3 Pro, сильный результат по сложному рассуждению Помимо цифр, заявлены улучшенный tool calling и стабильное следование инструкциям, даже при работе с длинным контекстом. Попробовать модель: https://chat.qwen.ai/ 🤑ForgetMe | Boosty Приобрести подписку на любые сервисы ⏩@forgetshop_bot #нейросети#новости#qwen

ForgetMe | Нейросети

@forgetmeai · Post #5735 · 02.01.2026, 13:31

✴️Qwen-Image-2512: декабрьский апгрейд с упором на реализм и текст Команда Qwen подвезла праздничное обновление Qwen-Image-2512 — свежую версию декабрём, как раз к Новому году. Модель нацелена на более «живые» картинки и аккуратную работу с буквами в кадре, оставаясь в открытом доступе. Что улучшили: 🟡Люди выглядят естественнее. Ушёл характерный «ИИ-блеск», появились более детальные лица и мимика. 🟡Природа и материалы стали фактурнее. Трава, вода, шерсть и поверхности прорисовываются заметно резче. 🟡Текст в изображении — ровнее и точнее. Компоновка и попадание в макет стали предсказуемее, меньше артефактов. По итогам 10 000+ слепых сравнений на AI Arena модель заняла позицию сильнейшей среди open-source решений и уверенно держится рядом с закрытыми системами по качеству. Попробовать и скачать: 🟡Qwen Chat (t2i) 🟡Hugging Face — модель • Демо 🟡ModelScope — модель • Демо 🟡GitHub — репозиторий • Блог-анонс 🟡API (ModelStudio) 🤑ForgetMe | Boosty Приобрести подписку на любые сервисы ⏩@forgetshop_bot #нейросети#новости#qwen

ForgetMe | Нейросети

@forgetmeai · Post #5657 · 28.11.2025, 18:26

📛Новая модель генерации изображений от китайцев Вчера одна китайская лаборатория под покровительством Алибабы (qwen, wan и тд) представили Z-Image-Turbo (да она реально так называется). Качество генерации очень неплохое, но пока не выкатили версию под редактирование, но зато нет цензуры, подробнее: Линейка состоит из трёх вариантов (база — 6B), причём Turbo уже доступен и акцентирован на скорости и эффективности, а Base и Edit заявлены «скоро». 🟡Z-Image-Turbo (дистиллированная) — ~8 NFEs, субсекундная задержка на H800-классе, 16 ГБ VRAM достаточно; сильна в фотореализме, следовании промптам и двуязычном тексте. 🟡Z-Image-Base — недистиллированная версия для дообучения и кастомизации сообществом (скоро). 🟡Z-Image-Edit — специализация на редактировании (в т.ч. img2img по текстовым промптам, скоро). Где попробовать и почитать:Hugging Face: Z-Image-Turbo • Demo (HF Spaces) • GitHub (код и доки) • Comfy Workflow 🤑ForgetMe | Boosty Приобрести подписку на любые сервисы ⏩@forgetshop_bot #нейросети#новости#qwen

ForgetMe | Нейросети

@forgetmeai · Post #5370 · 05.10.2025, 10:34

✴️Qwen запускает персонализацию: Memory и кастомные системные инструкции В Qwen Chat начали поэтапно включать функции персонализации: Memory для запоминания важных фактов о ваших предпочтениях и custom system instruct для задания стиля и правил ответа на уровне всего диалога. Пока это ограниченное тестирование, доступ расширяют постепенно. Попробовать можно здесь: chat.qwen.ai. 🤑ForgetMe | Boosty Приобрести подписку на любые сервисы ⏩@forgetshop_bot #нейросети#новости#qwen

ForgetMe | Нейросети

@forgetmeai · Post #5284 · 25.09.2025, 03:41

🤖Qwen3-Max: новая вершина линейки Qwen для кода, агентов и сложных задач Qwen представила Qwen3-Max — на сегодня самую мощную модель семейства. Версия Qwen3-Max-Instruct заметно прибавила в программировании и агентных сценариях, а по уровню качества её уже сравнивают с флагманами рынка вроде ChatGPT 5 и Claude Opus 4. Что умеет на практике: 🟡 уверенно решает реальные задачи по разработке и выдаёт быстрый, рабочий код; 🟡 держит сложную логику и рассуждения, отвечает на вопросы, требующие глубоких знаний; 🟡 справляется с олимпиадной математикой и многошаговыми проблемами. Отдельно отметили Qwen3-Max-Thinking: в «тяжёлом» режиме модель показывает почти эталонные результаты. Рост обеспечили большие данные, мощные вычисления и RL-тренировка (обучение с подкреплением). Проверить в деле:Qwen Chat Подробнее о релизе:Пост в блоге Qwen 🤑ForgetMe | Boosty Приобрести подписку на любые сервисы ⏩@forgetshop_bot #нейросети#новости#qwen

ForgetMe | Нейросети

@forgetmeai · Post #5215 · 12.09.2025, 13:52

✴️Qwen3-Next-80B-A3B: «тонкий» 80B с активными 3B Представили Qwen3-Next-80B-A3B — модель на 80B параметров, у которой за каждый токен активируется лишь ~3B. За счёт такой сверхразреженной схемы обещают в 10 раз дешевле обучение и в 10 раз быстрее инференс, чем у Qwen3-32B, особенно на длинных контекстах 32K+. В основе — гибридная архитектура Gated DeltaNet + Gated Attention, совмещающая скорость и точность извлечения. По заявлению команды, Qwen3-Next-80B-A3B-Instruct по качеству подбирается к флагману 235B, а версия Thinkingобгоняет Gemini-2.5-Flash-Thinking на задачах рассуждения. Модель использует ультразряжённый MoE: 512 экспертов, 10 маршрутизируются + 1 общий, а также Multi-Token Prediction для «турбо» speculative decoding — это дополнительно ускоряет генерацию при длинном вводе и сложных запросах. Модель вышла сегодня ночью, но руки написать пост дошли только сейчас) Попробовать и почитать: 🟡Чат:chat.qwen.ai 🟡Блог:Анонс и технические детали 🟡Hugging Face:Коллекция Qwen3-Next 🟡ModelScope:Подборка Qwen3-Next 🟡Kaggle Models:Qwen3-Next-80B 🟡Alibaba Cloud API:Model Studio — Qwen 🤑ForgetMe | Boosty Приобрести подписку на любые сервисы ⏩@forgetshop_bot #нейросети#новости#qwen

12
НазадСтр. 1 из 2Вперёд