TGTGInsightаналитика telegramLIVE / telegram public index
← DevOps

TGINSIGHT SIMILAR POSTS

Найти похожее

Источник @DevOPSitsec · Post #1839 · 23 окт.

Модель Llama-Embed-Nemotron-8B от NVIDIA вышла на 1-е место в рейтинге MMTEB — став лучшей открытой и переносимой моделью эмбеддингов в мире. Она установила новый стандарт в задачах поиска, реранжирования и семантического сходства более чем на 1000 языках, превзойдя решения Google GeminiEmbedding и Alibaba Qwen3-8B. Построенная на базе Llama-3.1-8B, модель обучалась на 16 млн пар “запрос-документ”, прошла инструкционно-ориентированный fine-tuning и использует модельное слияние (model merging) для объединения многоязычного поиска в единую систему. Это - большой шаг вперёд для open-source ИИ и многоязычных исследований. https://huggingface.co/nvidia/omni-embed-nemotron-3b #AI#NVIDIA#Llama#Embeddings#Multilingual#Retrieval#OpenSource#LLM#SemanticSearch#Nemotron#MMTEB#DeepLearning#AIResearch

Результаты

Найдено 11,040 похожих постов

Общий глобальный поиск

Machinelearning

@ai_machinelearning_big_data · Post #8114 · 22.07.2025, 10:55

🌟OpenReasoning-Nemotron: набор ризонинг-моделей от NVIDIA. OpenReasoning-Nemotron - набор LLM на архитектуре Qwen 2.5 и дистиллированных из DeepSeek-R1-0528 ( 671 млрд. параметров): 🟠OpenReasoning-Nemotron-1.5B; 🟠OpenReasoning-Nemotron-7B; 🟠OpenReasoning-Nemotron-14B; 🟢OpenReasoning-Nemotron-32B; Семейство было обучено на 5 млн. примеров рассуждений в математике, естественных науках и программировании. Модели показали достойные результаты pass@1 на бенчах GPQA, MMLU-PRO, AIME, HMMT и LiveCodeBench - без использования RL. Старшая модель, 32B, выбила 96,7% по HMMT с декодированием GenSelect. 📌Лицензирование: CC-BY-4.0 License. 🟡Статья 🟡Набор моделей @ai_machinelearning_big_data #AI#ML#LLM#Reasoning#Nemotron#NVIDIA

Machinelearning

@ai_machinelearning_big_data · Post #8861 · 27.10.2025, 12:20

⚡️ LMMs Engine - единый движок для обучения мультимодальных моделей Простой, гибкий и мощный фреймворк от LMMs-Lab для обучения моделей, которые понимают текст, изображения, аудио и видео, всё в одном месте. Что внутри: • Поддержка 19+ архитектур, включая: • Qwen3-VL - обработка изображений в native-разрешении, контекст до 10 000+ токенов • Qwen2.5-Omni - единая модель для текста, изображений и аудио • WanVideo - генерация видео из текста/изображений (T2V, I2V, V2V) • dLLM - диффузионные языковые модели • LLaVA-OneVision, Bagel, SiT, RAE-SigLip и другие 📜 Лицензия: Apache 2.0 (можно использовать даже в коммерческих проектах) 🔗 GitHub: https://github.com/EvolvingLMMs-Lab/lmms-engine @ai_machinelearning_big_data #llm#opensource

Machinelearning

@ai_machinelearning_big_data · Post #9711 · 21.03.2026, 12:15

🌟NVIDIA Nemotron-Cascade 2: MoE на 30B параметров и золото на математических олимпиадах. Nemotron-Cascade 2 - вторая в мире открытая языковая модель, получившая золотую медаль сразу на 3 соревнованиях 2025 года: IMO, IOI и финале ICPC. До нее это удавалось только DeepSeek-V3.2-Speciale, модели с 671B параметров и 37B активных. У Nemotron-Cascade 2 параметров в 20 раз меньше: 30B общих, 3B активных. 🟠На IMO 2025 модель решила 5 задач из 6 и набрала 35 из 42 баллов. 🟠На IOI - 439 из 600, что соответствует золоту. 🟠На ICPC World Finals 10 задач из 12, это 4 место в золотой зоне. При этом 8 задач ICPC были решены менее чем за 100 попыток. 🟡Архитектура MoExperts на базе Nemotron-3-Nano-30B-A3B-Base. Отличие от первой версии - расширенный Cascade RL, где обучение с подкреплением проходит последовательно по доменам: сначала следование инструкциям, затем мультидоменное RL, потом дистилляция, RLHF, работа с длинным контекстом, код и, наконец, задачи программной инженерии. 🟡Multi-Domain On-Policy Distillation (MOPD) На каждом этапе Cascade RL выбирается лучший промежуточный чекпоинт по конкретному домену и используется как учитель. Поскольку все учителя происходят от одной SFT-инициализации, они делят токенайзер и словарь, что упрощает дистилляцию. MOPD работает на уровне отдельных токенов, а не последовательностей, и сходится быстрее, чем классический GRPO: на AIME 2025 достигает уровня учителя за 30 шагов оптимизации. 🟡Тесты На бенчмарках модель обходит Qwen3.5-35B-A3B и более крупную Nemotron-3-Super-120B-A12B в математике, коде и следованию инструкциям. 🟢LiveCodeBench v6: 88.4 (у Qwen3.5 74.6); 🟢ArenaHard v2: 83.5 против 65.4 у Qwen3.5; 🟢IFBench: 82.9 против 70.2; 🟢На Codeforces модель набрала рейтинг 2345 с TIR (на уровне моделей с 300B+ параметров). 🟡Слабые места Задачи, требующие глубоких знаний (MMLU-Pro, GPQA-Diamond) и агентные сценарии (BFCL v4, τ²-Bench, SWE Verified). Тут Qwen3.5 пока впереди. NVIDIA обещает подтянуть наукоёмкий претрейн и агентный RL в следующих версиях Nemotron-Cascade. 📌Лицензирование: NVIDIA Open Model License. 🟡Модель 🟡SFT-датасет 🟡RL-данные 🟡Техотчет @ai_machinelearning_big_data #AI#ML#LLM#Nemotron#Cascade2#NVIDIA

AppPie

@AppPie · Post #2288 · 27.12.2024, 02:02

#AI DeepSeek-V3 发布:性能对标 GPT-4o, 全面开源 🔗GitHub DeepSeek 今天发布了全新系列模型 V3 的首个版本,可通过 chat.deepseek.com 体验,API 服务已同步更新。 模型亮点 • 架构:自研 MoE 架构,总参数量 671B,激活参数 37B • 训练:在 14.8T token 上预训练 • 性能:多项评测超越 Qwen2.5-72B、Llama-3.1-405B,对标 GPT-4o 和 Claude-3.5-Sonnet • 速度:生成速度提升至 60 TPS,比 V2.5 提升 3 倍 优势领域 • 百科知识:接近 Claude-3.5-Sonnet 水平 • 长文本理解:在多个基准测试中领先 • 代码能力:算法类场景远超非 o1 模型 • 数学能力:在多个竞赛测试中领先开源闭源模型 • 中文处理:在知识类任务上表现优异 API 定价 • 新价格:输入 0.5元/2元,输出 8元(每百万tokens) • 优惠期:至2025年2月8日,输入 0.1元/1元,输出 2元 开源支持 • 原生 FP8 权重开源 • SGLang 和 LMDeploy 支持 FP8 推理 • TensorRT-LLM 和 MindIE 支持 BF16 推理 • 提供 FP8 到 BF16 转换脚本 #DeepSeek#AI#LLM#OpenSource 📮 频道 @AppPie​​​​​​​​​​​​​​​​

Machinelearning

@ai_machinelearning_big_data · Post #8608 · 22.09.2025, 15:35

🚀 Новая китайская модель LongCat-Flash-Thinking 🧠 Это модель для рассуждений, которая показала SOTA-результаты среди open-source решений. ⚡ Основное: - Архитектура MoE, 560B параметров, из них 27B активируются. - Эффективность: требует на **64,5% меньше токенов**( чем другим открытым моделям того же класса), чтобы достичь топ-результатов на AIME25 (с нативным использованием инструментов,). - Контекст: 128k, обучение с усилением на задачах рассуждений и кода, многоэтапное пост-тюнинг обучение с мультиагентным синтезом. - Инфраструктура: асинхронный RL даёт 3x ускорение по сравнению с синхронными фреймворками. ⚙️ Оптимизации для продакшена: - Свои оптимизированные ядра для работы с MoE и специальные приёмы распределённого обучения, - KV-cache reduction, квантование, chunked prefill, - статическая/эластичная маршрутизация, peer-to-peer cache transfer, heavy-hitter replication и PD-disaggregation. - Поддержка SGLang и vLLM для эффективного деплоя. 📊 Бенчмарки: - Лидирует в tool use (**τ²-Bench, VitaBench**) - Хорошие результаты по instruction following (**IFEval, COLLIE, Meeseeks-zh**). Китайцы стабильно удерживают лидерство в reasoning-моделях. 🟠HF: https://huggingface.co/meituan-longcat/LongCat-Flash-Thinking @ai_machinelearning_big_data #AI#LLM#Reasoning#MoE#DeepLearning#OpenSource

Machinelearning

@ai_machinelearning_big_data · Post #9732 · 24.03.2026, 16:31

⚡️ Сбер выпустил крупнейшее обновление ГигаЧат — и выложил в open source. GigaChat Ultra и GigaChat-3.1-Lightning уже под MIT-лицензией. Текущее обновление дало заметный прирост по качеству ответов, устойчивости генерации и прикладным сценариям использования. Модели можно разворачивать в закрытом контуре, адаптировать под корпоративные данные и использовать как базу для чат-ботов, внутренних ассистентов и отраслевых AI-сервисов. 🟡Что важно в самом обновлении В статье на Хабр команда описывает переход от Dense к MoE, переработку этапа постобучения и отдельную работу над устойчивостью генерации. Один из ключевых результатов — модели значительно реже уходят в циклы, то есть стабильнее ведут себя в длинных ответах и диалогах. В релизных материалах это вынесено как отдельное качественное улучшение. DPO-этап переведён в нативный FP8. Практический смысл этого изменения — более эффективное использование памяти на этапе дообучения без потери качества относительно предыдущих версий. Дополнительно в ходе работы был выявлен критичный баг в SGLang, который влиял на качество и корректность замеров. 🟡По моделям Ultra в этом обновлении заметно усилилась в математике, задачах на рассуждение. Lightning — компактная модель с 1,8 млрд активных параметров, ориентированная на быстрые сценарии. При этом в релизе отдельно отмечен рост качества общения, следования инструкциям и общих знаний. ГигаЧат получил две новые функции: научился искать в интернете прямо во время диалога и научился в запоминать важные факты для пользователя — это называется долгосрочная память. ✔️ Для разработчиков это означает, что open source-релиз принёс не просто открытые веса, а более зрелую и инженерно доработанную базу, на которой можно строить как качественные, так и экономически эффективные решения. Для рынка — это шаг к развитию собственной открытой экосистемы русскоязычных моделей, пригодных для реальных продуктовых внедрений. @ai_machinelearning_big_data #news#ai#ml#llm#opensource

Machinelearning

@ai_machinelearning_big_data · Post #9253 · 15.12.2025, 16:05

🖥NVIDIA представила новое открытое семейство моделей Nemotron 3 ✔️Nemotron 3 Nano - это универсальная модель для рассуждений и чата, ориентированная на локальный запуск. Ключевые характеристики: - MoE-архитектура: 30B параметров всего, ~3.5B активных - Контекст до 1 миллиона токенов - Гибридная архитектура: - 23 слоя Mamba-2 + MoE - 6 attention-слоёв - Баланс между скоростью и качеством рассуждений Требования: - необходимо около 24 ГБ видеопамяти для локального запуска Модель хорошо подходит для длинных диалогов, анализа документов и reasoning-задач Интересный пример того, как MoE и Mamba начинают реально снижать требования к железу, сохраняя масштаб контекста и качество. ✔️Nemotron 3 Super и Nemotron 3 Ultra значительно превосходят Nano по масштабу - примерно в 4 раза и 16 раз соответственно. Но ключевой момент здесь не просто в размере моделей, а в том, как NVIDIA удалось увеличить мощность без пропорционального роста стоимости инференса. Для обучения Super и Ultra используется NVFP4 и новая архитектура Latent Mixture of Experts. Она позволяет задействовать в четыре раза больше экспертов при той же стоимости инференса. По сути, модель становится «умнее» за счёт более гибкого выбора экспертов, а не за счёт постоянной активации всех параметров. Дополнительно применяется Multi-Token Prediction, что ускоряет обучение и улучшает качество рассуждений на длинных последовательностях. Это особенно важно для agentic и multi-agent сценариев, где модели работают с длинным контекстом и сложными цепочками решений. NVIDIA публикует не только веса, но и данные для предобучения и постобучения, а также технические детали, которые объясняют, почему эти модели одновременно быстрые и сильные. Такой уровень открытости - редкость для моделей этого масштаба и хороший сигнал для индустрии. 🟡Release: https://developer.nvidia.com/blog/inside-nvidia-nemotron-3-techniques-tools-and-data-that-make-it-efficient-and-accurate/ 🟡Guide: https://docs.unsloth.ai/models/nemotron-3 🟡GGUF: https://huggingface.co/unsloth/Nemotron-3-Nano-30B-A3B-GGUF 🟡lmstudio: https://lmstudio.ai/models/nemotron-3 @ai_machinelearning_big_data #AI#LLM#NVIDIA#Nemotron3#OpenSource#MachineLearning

NVIDIA mintaqaviy direktori bilan uchrashuv bo‘lib o‘tdi ⚡️ “Yangi O‘zbekiston” universitetida dunyoning yetakchi texnologiya kompaniyalaridan biri — NVIDIA mintaqaviy direktori Anton Juraev ishtirokida uchrashuv bo‘lib o‘tdi. 💥 Uchrashuv davomida Anton Juraev MDH hududida ilg‘or texnologiyalarni joriy etish, sun’iy intellekt va ma’lumotlar ilmi sohalaridagi global tendensiyalar hamda NVIDIA kompaniyasining ilm-fan va sanoatni rivojlantirishdagi o‘rni haqida ma’lumot berdi. 🔵 Uchrashuv orqali talabalar sun’iy intellekt va ilg‘or hisoblash texnologiyalari bo‘yicha amaliy bilimlarini kengaytirish hamda xalqaro miqyosdagi tajribaga ega mutaxassisdan maslahat olish imkoniyatiga ega bo‘ldilar. 🔁English ➖➖➖➖➖➖➖➖➖➖➖➖ #NVIDIA#AI ⬇️ Biz ijtimoiy tarmoqlarda: Veb-sayt | Telegram | Instagram | Facebook

Hashtags

Machinelearning

@ai_machinelearning_big_data · Post #9158 · 03.12.2025, 09:02

⚡️Как Яндекс внедрил LLM в QA и что из этого получилось На Хабре вышел подробный разбор о том, как Яндекс внедряет LLM в процессы тестирования. Из интересного: генерация чек-листов и тест-кейсов, создание автотестов, первые шаги в сторону ИИ-агентов для ручного тестирования. Разобрали и технические сложности: интеграции с TMS, единые MCP-коннекторы, LLM-As-A-Judge и работу с «зоопарком» инструментов. В статье много схем и цифр, включая рост скорости написания автотестов на ~30%. @ai_machinelearning_big_data #ai#LLM

Hashtags

Machinelearning

@ai_machinelearning_big_data · Post #8628 · 26.09.2025, 10:03

⚡️Новый датасет Т-ECD — крупнейший кросс-доменный набор для RecSys Ключевые особенности: - синтезирован на основе поведения 44 млн пользователей - более 135 млрд взаимодействий - включает 30 млн товаров и 1,2 млн брендов - охватывает домены: Marketplace, Retail, Payments, Offers, Reviews, Reciepts - подходит для большинства рекомендательных задач - глубина данных 1– 3,5 года — можно изучать как краткосрочные, так и долгосрочные взаимодействия T-ECD универсален и применяется от базовой коллаборативной фильтрации до сложных мультизадачных моделей последовательных и графовых рекомендаций. Можно использовать целиком и по отдельным доменам. 🟠HF: https://huggingface.co/datasets/t-tech/T-ECD @ai_machinelearning_big_data #AI#LLM

Hashtags

Parallel Experiments

@LinghaoCh · Post #938 · 19.04.2025, 05:31

https://arxiv.org/abs/2305.18290#llm#ai 今天深入学习了 DPO,再次感叹扎实的数学功底对 AI/ML Research 的重要性…… 原始的 RLHF 是用 pairwise human preference data(A 和 B 哪个更好)去训练一个 reward model,然后用 RL 来训练主 policy model,objective 是 minimize negative log likelihood + regularization(比如 PPO 就是通过新旧 policy 之间的 KL Divergence 来做 regularization)。这样的缺点在于 RL 是出了名的难搞,而且还需要一个 critic model 来预测 reward,使得整个系统的复杂性很高。 DPO 的思路是,观察到 RLHF 的 objective 本质上是 minimize loss over (latent) reward function,通过一番 reparameterization 等数学推导,重新设计了一个 minimize loss over policy 的 objective,绕过了中间这个 reward model,让 gradient update 直接增加 policy model 生成 winner response 的概率并降低 loser response 的概率,大幅简化了流程。 拓展阅读: - KTO: 更进一步,不需要 pairwise comparison,只用对 individual example 的 upvote/downvote 也可以学习到 preference。 - IPO: 解决 DPO 容易 overfit 的问题。

Hashtags

GeekPlux Lab

@geekplux_lab · Post #1600 · 20.06.2025, 02:50

Andrej Karpathy 这个 speak 太值得一看了,刚开始三分钟就被镇住。以后唯一的编程语言将会是英语,LLM 会成为新的 LLM OS。还没看完已经记了一些笔记 #AI#LLM https://www.youtube.com/watch?v=LCEmiRjPEtQ

Hashtags

123•••50•••100•••150•••200•••250•••300•••350•••400•••450•••500•••550•••600•••650•••700•••750•••800•••850•••900•••919920
НазадСтр. 1 из 920Вперёд