Найти похожее

@ai_machinelearning_big_data · Post #8861 · 27.10.2025, 12:20

⚡️ LMMs Engine - единый движок для обучения мультимодальных моделей Простой, гибкий и мощный фреймворк от LMMs-Lab для обучения моделей, которые понимают текст, изображения, аудио и видео, всё в одном месте. Что внутри: • Поддержка 19+ архитектур, включая: • Qwen3-VL - обработка изображений в native-разрешении, контекст до 10 000+ токенов • Qwen2.5-Omni - единая модель для текста, изображений и аудио • WanVideo - генерация видео из текста/изображений (T2V, I2V, V2V) • dLLM - диффузионные языковые модели • LLaVA-OneVision, Bagel, SiT, RAE-SigLip и другие 📜 Лицензия: Apache 2.0 (можно использовать даже в коммерческих проектах) 🔗 GitHub: https://github.com/EvolvingLMMs-Lab/lmms-engine @ai_machinelearning_big_data #llm#opensource

Hashtags

#llm #opensource

@ai_machinelearning_big_data · Post #9004 · 17.11.2025, 07:10

⚡ Heretic - инструмент, который автоматически снимает цензуру (alignment) с языковых моделей Он позволяет «расцепить» модель - убрать отказные фильтры и повысить готовность отвечать на запросы, не изменяя веса исходной модели напрямую. Что делает Heretic: - работает как «чёрный ящик»: получает ответы модели через API, не имея доступа к весам - использует готовые примеры «безопасных» и «опасных» запросов - обучает дискриминатор, который отличает ответы модели до и после модификации - подбирает параметры так, чтобы модель давала меньше отказов, но сохраняла адекватность - после завершения процесс можно сохранить финальную модель или протестировать её в чат-режиме Зачем это нужно: - позволяет локальным моделям отвечать шире, чем обычно позволяет их встроенный alignment - минимизирует потерю качества — сделано так, чтобы модель не «тупела» и не отклонялась слишком сильно - подходит для исследований поведения моделей и экспериментов с ограничениями Важные моменты: - инструмент мощный и может использоваться по-разному - юридические и этические вопросы остаются на стороне пользователя - автор подчёркивает: это не средство повышения точности модели, а именно инструмент снятия ограничений https://github.com/p-e-w/heretic @ai_machinelearning_big_data #llm#opensource#ml

Hashtags

#llm #opensource #ml

@linuxgram · Post #18171 · 24.03.2026, 21:30

📰 LiteLLM loses game of Trivy pursuit, gets compromised Python interface for LLMs infected with malware via polluted CI/CD pipeline Two versions of LiteLLM, an open source interface for accessing multiple large language models, have been removed from the Python Package Index (PyPI) following a supply chain attack that injected them with malicious credential-stealing code.… 🔗 Source: https://go.theregister.com/feed/www.theregister.com/2026/03/24/trivy_compromise_litellm/ #python#opensource

Hashtags

#python #opensource

@ai_machinelearning_big_data · Post #8606 · 22.09.2025, 13:31

#deepseek #opensource #llm

🐳 Обновленная DeepSeek-V3.1-Terminus Она даёт более стабильные и полные результаты на тестах по сравнению с предыдущей версией. Языковая консистентность -китайцы значительно улучшили вывод модель - меньше случайных иероглифов и мешанины CN/EN. Ряд Агентных апгрейдов рузльтаты на Code Agent и Search Agent стали заметно сильнее. Доступна в приложении и в веб-версии и через API. 🔗 Открытые веса: https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Terminus @ai_machinelearning_big_data #DeepSeek#opensource#llm

Hashtags

AppPie

@AppPie · Post #2288 · 27.12.2024, 02:02

#ai #deepseek #llm #opensource

#AI DeepSeek-V3 发布：性能对标 GPT-4o, 全面开源 🔗GitHub DeepSeek 今天发布了全新系列模型 V3 的首个版本，可通过 chat.deepseek.com 体验，API 服务已同步更新。模型亮点 • 架构：自研 MoE 架构，总参数量 671B，激活参数 37B • 训练：在 14.8T token 上预训练 • 性能：多项评测超越 Qwen2.5-72B、Llama-3.1-405B，对标 GPT-4o 和 Claude-3.5-Sonnet • 速度：生成速度提升至 60 TPS，比 V2.5 提升 3 倍优势领域 • 百科知识：接近 Claude-3.5-Sonnet 水平 • 长文本理解：在多个基准测试中领先 • 代码能力：算法类场景远超非 o1 模型 • 数学能力：在多个竞赛测试中领先开源闭源模型 • 中文处理：在知识类任务上表现优异 API 定价 • 新价格：输入 0.5元/2元，输出 8元（每百万tokens） • 优惠期：至2025年2月8日，输入 0.1元/1元，输出 2元开源支持 • 原生 FP8 权重开源 • SGLang 和 LMDeploy 支持 FP8 推理 • TensorRT-LLM 和 MindIE 支持 BF16 推理 • 提供 FP8 到 BF16 转换脚本 #DeepSeek#AI#LLM#OpenSource 📮 频道 @AppPie

Hashtags

@ai_machinelearning_big_data · Post #9732 · 24.03.2026, 16:31

⚡️ Сбер выпустил крупнейшее обновление ГигаЧат — и выложил в open source. GigaChat Ultra и GigaChat-3.1-Lightning уже под MIT-лицензией. Текущее обновление дало заметный прирост по качеству ответов, устойчивости генерации и прикладным сценариям использования. Модели можно разворачивать в закрытом контуре, адаптировать под корпоративные данные и использовать как базу для чат-ботов, внутренних ассистентов и отраслевых AI-сервисов. 🟡Что важно в самом обновлении В статье на Хабр команда описывает переход от Dense к MoE, переработку этапа постобучения и отдельную работу над устойчивостью генерации. Один из ключевых результатов — модели значительно реже уходят в циклы, то есть стабильнее ведут себя в длинных ответах и диалогах. В релизных материалах это вынесено как отдельное качественное улучшение. DPO-этап переведён в нативный FP8. Практический смысл этого изменения — более эффективное использование памяти на этапе дообучения без потери качества относительно предыдущих версий. Дополнительно в ходе работы был выявлен критичный баг в SGLang, который влиял на качество и корректность замеров. 🟡По моделям Ultra в этом обновлении заметно усилилась в математике, задачах на рассуждение. Lightning — компактная модель с 1,8 млрд активных параметров, ориентированная на быстрые сценарии. При этом в релизе отдельно отмечен рост качества общения, следования инструкциям и общих знаний. ГигаЧат получил две новые функции: научился искать в интернете прямо во время диалога и научился в запоминать важные факты для пользователя — это называется долгосрочная память. ✔️ Для разработчиков это означает, что open source-релиз принёс не просто открытые веса, а более зрелую и инженерно доработанную базу, на которой можно строить как качественные, так и экономически эффективные решения. Для рынка — это шаг к развитию собственной открытой экосистемы русскоязычных моделей, пригодных для реальных продуктовых внедрений. @ai_machinelearning_big_data #news#ai#ml#llm#opensource

Hashtags

#news #ai #ml #llm #opensource

@linuxgram · Post #18007 · 07.03.2026, 16:55

📰 AMD GAIA 0.16 Introduces C++17 Agent Framework For Building AI PC Agents In Pure C++ AMD's GAIA open-source framework for building AI agents that run locally on Ryzen AI hardware via the Radeon iGPUs and/or NPUs is up to version 0.16. With this new GAIA release is support for developing AI agents purely in C++ with no longer needing to depend upon Python... 🔗 Source: https://www.phoronix.com/news/AMD-GAIA-0.16 #amd#opensource#python

Hashtags

#amd #opensource #python

@ai_machinelearning_big_data · Post #8609 · 22.09.2025, 18:54

🚀 День релизов: Qwen выпустили Qwen3-Omni — первый нативный end-to-end *omni-modal AI* Модель обрабатывает текст, изображения, аудио и видео в одной модели. На бенчмарках выглядит так, как будто все модальности работают одинаково качественно. ⚡️ Особенности - Первое место на 22 из 36 аудио- и мультимодальных бенчмарков - Поддержка: 119 языков текста, - Минимальная задержка — 211 мс - Обработка аудио до 30 минут длиной - ПОзволяет гибко настраивать через системные промпты - Встроенный tool calling 🌟 Open-source релизы Компания выложила три версии: - Qwen3-Omni-30B-A3B-Instruct - Qwen3-Omni-30B-A3B-Thinking - Qwen3-Omni-30B-A3B-Captioner 👉Попробовать можно здесь: 💬 Chat: https://chat.qwen.ai/?models=qwen3-omni-flash 💻GitHub: https://github.com/QwenLM/Qwen3-Omni 🤗 Hugging Face: https://huggingface.co/collections/Qwen/qwen3-omni-68d100a86cd0906843ceccbe 🤖ModelScope: https://modelscope.cn/collections/Qwen3-Omni-867aef131e7d4f 🎬Demo: https://huggingface.co/spaces/Qwen/Qwen3-Omni-Demo @ai_machinelearning_big_data #qwen#opensource#llm#ml

Hashtags

#qwen #opensource #llm #ml

@ai_machinelearning_big_data · Post #8600 · 22.09.2025, 10:49

⚡️ Вышли новые версии Qwen3-Next-80B в формате FP8! 📌 Модели: - Qwen3-Next-80B-A3B-Instruct-FP8: 80B, обученная в формате Instruct. Сочетает MoE-архитектуру и FP8-квантование, при большом размере работает быстро и кушает меньше памяти, поддерживает длинный контекст - до 262k токенов (с расширением до миллиона) и оптимизирована для сложных задач рассуждения и работы с большими документами. - Qwen3-Next-80B-A3B-Thinking-FP8 — Thinking модель, с акцентом на рассуждения, и решение логических задач. Гибридное внимание: Gated DeltaNet + Gated Attention → работа с супердлинными контекстами. Thinking-версия** показывает топ-результаты на задачах рассуждений, обгоняя не только Qwen3-30B/32B, но и закрытую Gemini-2.5-Flash-Thinking - FP8-точность → быстрый инференс при сохранении качества. - Полная совместимость с Transformers, vLLM и SGLang. - Подходит для продакшн-задач, где важны скорость и эффективность. 🟠Hugging Face: https://huggingface.co/collections/Qwen/qwen3-next-68c25fd6838e585db8eeea9d 🟠ModelScope: https://modelscope.cn/collections/Qwen3-Next-c314f23bd0264a @ai_machinelearning_big_data #qwen#opensource#llm#ml

Hashtags

#qwen #opensource #llm #ml

@linuxgram · Post #18798 · 14.05.2026, 22:05

📰 BleachBit’s new TUI lets you clean without a desktop environment Open-source cleaning tool BleachBit has gained a text-based user interface (TUI) as an optional alternative to its standard graphical frontend. Unlike BleachBit’s existing CLI, which is intended for non-interactive use in scripts, the TUI is fully interactive, you navigate the interface with your keyboard (there’s limited mouse support) to select, preview and clean out cruft. 🔗 Source: https://www.omgubuntu.co.uk/2026/05/bleachbit-tui #opensource

Hashtags

#opensource

@linuxgram · Post #18795 · 14.05.2026, 19:31

📰 MuseScore Studio 4.7 Notation App Adds New Guitar Features MuseScore Studio 4.7 open-source notation app adds new engraving tools, guitar notation features, playback improvements, MP4 export, and more. 🔗 Source: https://linuxiac.com/musescore-studio-4-7-notation-app-adds-new-guitar-features/ #opensource

Hashtags

#opensource

@linuxgram · Post #18740 · 11.05.2026, 08:32