TGTGInsighttelegram intelligenceLIVE / telegram public index
← GitHub Trends

TGINSIGHT SIMILAR POSTS

Find similar content

Source channel @githubtrending · Post #15421 · Jan 18

#python#audio#deeplearning#minicpm#python#pytorch#speech#speech_synthesis#text_to_speech#tts#tts_model#voice_cloning VoxCPM is a free, open-source TTS tool that turns text into realistic speech without tokens, creating expressive audio that matches context and clones voices perfectly from just 3-10 seconds of sample. Download VoxCPM1.5 (800M params) from Hugging Face, install via pip, and use simple Python or CLI commands for fast synthesis (RTF 0.15 on RTX 4090) or fine-tuning your own voices. You benefit by easily making natural audiobooks, podcasts, clones, or apps with pro-quality sound—saving time and costs on voice work. https://github.com/OpenBMB/VoxCPM

Results

14 similar posts found

Search: #vlm

当前筛选 #vlm清除筛选
Machinelearning

@ai_machinelearning_big_data · Post #9230 · 12/11/2025, 10:43 AM

⚡️В открытом доступе появился техрепорт собственного семейства моделей Яндекса — Alice AI. Что изменилось: ⭐️ VLM- и LLM-«Алисы» сближаются все сильнее, поскольку компания делает большую ставку на мультимодальность. Например, VLM-модель уже использует RL-подход текстовой «сестрёнки». Промпт на входе в Alice AI ART обрабатывается в специальном «рефразере», который помогает сделать описание более детальным. Также увеличен контекст и объем данных претрейна в VLM. ⭐️ Много технических подробностей о работе Alice AI LLM Search, которая теперь приносит в ответе не только текст, но и изображения, видео и геоданные. ⭐️ На инфраструктуре видим прирост по скорости за счет мелких аджастов — увеличение эффективного батча на претрейне, внедрение Ulysses attention, снижение объема кэша на инференсе и еще много изменений. В целом сняты ключевые ограничения для тренировки MoE-модели на сотни миллиардов параметров. @ai_machinelearning_big_data #vlm#llm#ml#ai

Machinelearning

@ai_machinelearning_big_data · Post #8247 · 08/11/2025, 01:55 PM

🚀 GLM-4.5V — новый лидер среди open-source моделей в визуальном рассуждении. Модель показывает лучшие результаты в своём классе среди открытых решений, лидируя на 41 бенчмарке. 📌 Возможности: - Image Reasoning — понимание изображений, анализ нескольких изображений, распознавание объектов. - Video Understanding — раскадровка длинных видео, определение событий, которые происходят на кадрах из видео. - GUI-задачи — понимание интрефейсов, распознавание иконок, кнопок и тд, помощь в управлении рабочим столом. - Сложный анализ графиков и документов — разбор различных отчётов, извлечение информации их них. - Grounding — точная локализация элементов на изображениях. 📌Особенности: 🟠 Основана на GLM-4.5-Air и использует наработки из GLM-4.1V-Thinking. 🟠 Архитектура — MoE с 106B параметров для эффективного масштабирования. Здесь можно почитать про GLM-4.5, а здесь посмотреть техрепорт, там много интересного. 🟢 Hugging Face:http://huggingface.co/zai-org/GLM-4.5V 🟢GitHub: http://github.com/zai-org/GLM-V 🟢 Документация API: http://docs.z.ai/guides/vlm/glm-4.5v 🟢Попробовать: http://chat.z.ai @ai_machinelearning_big_data #GLM#opensource#vlm

Machinelearning

@ai_machinelearning_big_data · Post #9605 · 03/02/2026, 04:10 PM

🌟GUI-Libra: фреймворк обучения VLM-агентов задачам управления интерфейсами. Microsoft, UIUC и UNC-Chapel Hill разработали систему дообучения VL-моделей для автономного управления графическими интерфейсами. Авторы обнаружили 2 системных изъяна в существующих пайплайнах обучения GUI-агентов: Cтандартный SFT с длинными CoT ухудшает визуальную локализацию (чем длиннее рассуждение, тем хуже модель попадает в нужный элемент интерфейса). Пошаговое RLVR-обучение нестабильно, потому что GUI-среда частично верифицируема. На каждом шаге существует несколько корректных действий, но датасет фиксирует только одно. Как результат - за альтернативные, но правильные действия модель получает штраф. 🟡Для решения первой проблемы предложили Action-Aware SFT Метод смешивает данные с рассуждениями и без них, а затем перевзвешивает токены: action- и grounding-токены получают больший вес в лосс-функции, чем токены рассуждений. Это позволяет сохранить способность к CoT, не жертвуя точностью клика. 🟡Для второй - Conservative RL на базе GRPO с двумя дополнениями. KL-регуляризация ограничивает дрейф политики относительно референсной модели, что улучшает корреляцию между офлайн- и онлайн-метриками. Success-Adaptive Negative Gradient Scaling динамически снижает вес отрицательных градиентов в зависимости от доли успешных действий в группе GRPO-сэмплов. Это защищает от штрафования валидных, но не задокументированных действий. 🟡Для трейна собрали датасет GUI-Libra-81K. Он содержит больше токенов на рассуждение: в среднем 210 на шаг против 85 у AGUVIS Stage 2 L3 и 0 у большинства остальных. Внутри - существующие открытые наборы, к которым GPT-4.1 дописывал подробные ризонинг-трассы. Фильтровали в два этапа: отсев шагов с точностью воспроизведения ниже 0.3 через Qwen3-VL-8B и верификация координат через bounding-box от Qwen3-VL-32B. 🟡Результаты Тестовая GUI-Libra-3B улучшила базовую Qwen2.5-VL-3B на +15.6% по Pass@1 на AndroidControl-v2 и с 3.5 до 25.2 на AndroidWorld. GUI-Libra-4B/8B на AndroidWorld выбила 42.6 (это столько же, сколько GPT-4o + UGround при использовании двух отдельных VLM-модулей. Веса всех моделей размерностью 3, 4, 7 и 8 млрд. параметров, целевой датасет и код обучения выложены в открытый доступ. 📌Лицензирование: Apache 2.0 License. 🟡Страница проекта 🟡Набор моделей 🟡Arxiv 🟡Набор датасетов 🖥GitHub @ai_machinelearning_big_data #AI#ML#VLM#GUILibra#Microsoft

Machinelearning

@ai_machinelearning_big_data · Post #8709 · 10/07/2025, 01:31 PM

✔️Tencent представила HunyuanVision - новую мультимодальную модель, объединяющую зрение и язык в одном фреймворке. Модель умеет рассуждать на основе изображений, понимать сложные визуально-текстовые задачи и поддерживает мультиязычные кейсы. Ключевые особенности: - Visual Reasoning - глубокое понимание изображений и сцен - Multilingual Support - работа с несколькими языками - Visual Dialogue - позволяет весть диалог на основе изображения и текста - Thinking-on-Image - рассуждение на уровне визуальных деталей HunyuanVision-1.5 демонстрирует продвинутые способности в задачах анализа, генерации и рассуждения. Работает шустро, русский понимает, но не без косяков. Модель доступна для использования через Tencent Cloud API и LMArena (Direct Chat). Полный технический отчёт и веса обещают к релизу позже в октябре. Ждемс. 🟠Попробовать: http://cloud.tencent.com/document/product/1729/104753 🟠Репозиторий: github.com/Tencent-Hunyuan/HunyuanVision 🟠Api: https://cloud.tencent.com/document/product/1729/104753 @ai_machinelearning_big_data #Tencent#llm#ml#Hunyuan#vlm

Machinelearning

@ai_machinelearning_big_data · Post #8447 · 09/04/2025, 08:07 AM

🌟POINTS-Reader: компактная VLM для OCR без дистилляции и сложной обвязки. Tencent опубликовали довольно интересный проект - POINTS-Reader. Это VLM для OCR английского и китайского языков на 4 млрд. параметров на базе Qwen2.5-3B-Instruct, которая обошла GPT-4o и Gemini на бенче OmniDocBench. POINTS-Reader - это философия предельной простоты c прямолинейным конвейером: на вход подается изображение документа и фиксированный промпт, а на выходе получается извлеченный текст. Никаких этапов постобработки, скриптов для очистки или дополнительных моделей — результат сразу готов к использованию. Помимо скромной базовой Qwen2.5, в POINTS-Reader использовали умеренный по нынешним меркам Vision Transformer - NaViT на 600 млн. параметров. И это осознанный инженерный шаг в угоду простоте и производительности. Современные фреймворки для инференса, будь то SGLang или vLLM, в первую очередь оптимизированы под LLM-часть, из-за чего громоздкий ViT становится узким местом и серьезно замедляет всю систему. Такая компактная архитектура превосходно показала себя на тестах. На комплексном OmniDocBench модель набрала 0.133 для английских документов и 0.212 для китайских. Эти цифры ставят POINTS-Reader в один ряд с гораздо более тяжелыми и сложными системами. Секрет проекта кроется в двухэтапной стратегии подготовки данных, которая полностью отказывается от дистилляции знаний у моделей-учителей. На первом этапе модель получает базовые навыки OCR, обучаясь на синтетике. Дальше начинается самый интересный этап — непрерывная самоэволюция. Модель используется для генерации аннотаций на реальных документах, после чего лучшие из полученных образцов используются для ее дообучения. Этот итеративный процесс позволяет постоянно повышать качество как самой модели, так и генерируемых ею данных. Этот метод к самосовершенствованию описан в техотчете как очень гибкий и применимый, по словам Tencent, практически к любой другой архитектуре. 🟡Как в любом проекте - есть нюансы. Модель пока не очень уверенно справляется со сложными макетами, вроде газетной верстки, что может приводить к повторению или пропуску контента. Аналогичные трудности возникают и при обработке рукописного текста, например, в чеках или заметках. Кроме того, на данный момент POINTS-Reader поддерживает только английский и китайский языки. ▶️ Запустить эту прелесть модель можно на Transformers или в SGLang. Поддержку vLLM обещают добавить. 🟡Модель 🟡Arxiv 🖥GitHub @ai_machinelearning_big_data #AI#ML#VLM#POINTSReader#Tencent

Machinelearning

@ai_machinelearning_big_data · Post #7957 · 07/04/2025, 01:03 PM

🌟WM-ABench: тестирование VL-моделей на понимание физики реального мира. Мaitrix Org разработали WM-ABench, бенчмарк для оценки VLM в качестве так называемых «моделей мира». Идея проста: проверить, насколько хорошо топовые модели способны не просто распознавать картинки, а понимать окружающую действительность и предсказывать ее изменения. Создатели, опираясь на когнитивную науку, создали фреймворк, который тестирует 15 самых популярных моделей по 23 параметрам, разделяя процесс на 2 ключевых этапа: восприятие и прогнозирование. В основе бенчмарка - огромный датасет из более чем 100 тысяч примеров, сгенерированных в 6 различных симуляторах, от ThreeDWorld и Physion до Carla. Чтобы модели не искали легких путей и не полагались на поверхностные совпадения, в тест добавили «сложные негативы» - контрфактические состояния, которые заставляют систему действительно анализировать происходящее. Весь процесс был разделен на оценку восприятия (распознавание объектов, пространства, времени, движения) и прогнозирования (симуляция физики, транзитивный и композиционный вывод). Для калибровки сложности задач были установлены базовые показатели, основанные на результатах людей. 🟡Результаты. С простым визуальным восприятием, то есть с определение цвета или формы, все модели справляются отлично. Однако когда дело доходит до трехмерного пространственного мышления, динамики движения или временных последовательностей, начинаются серьезные проблемы. Выяснилась и другая любопытная деталь: VLM склонны «спутывать» физические понятия. Например, если в сцене изменить только цвет объекта, модель может внезапно ошибиться в оценке его размера или скорости. Оказалось, что цвет и форма являются самыми влиятельными атрибутами, которые искажают восприятие других, не связанных с ними характеристик. 🟡Но главная проблема кроется глубже. Точное восприятие мира совершенно не гарантирует точного прогноза. Исследование показало, что даже при идеально верном распознавании текущего состояния сцены модели проваливают предсказание физических взаимодействий. Разрыв с человеческими способностями явный: в задачах на транзитивный вывод он достигает 46%, а композиционный вывод выполняется на уровне случайного угадывания. 🟡Бенчмарк подсветил фундаментальный недостаток: У современных VLM отсутствуют базовые знания физики, необходимые для симуляции даже простейших событий. Они видят мир, но не понимают, по каким законам он живет. 📌Лицензирование: Apache 2.0 License. 🟡Страница проекта 🟡Arxiv 🟡Датасет @ai_machinelearning_big_data #AI#ML#VLM#Benchmark#Maitrix

Machinelearning

@ai_machinelearning_big_data · Post #9447 · 01/29/2026, 04:04 PM

🌟Step3-VL-10B: VLM от stepfun.ai. Пока индустрия одержима гигантоманией и соревнуется, у кого больше параметров, Stepfun решили пойти против течения. Встречайте, Step3-VL-10B - компактная VL-модель, которая по заявлениям разработчиков не просто конкурирует, а буквально уделывает модели в 10–20 раз тяжелее, включая таких титанов, как Gemini 2.5 Pro и GLM-4.6V. Звучит как маркетинговый хайп, но под капотом есть интересные инженерные решения, хоть и с хитринкой. 🟡Архитектура Конструкция из кастомного визуального PE-lang энкодера на 1.8B параметров и Qwen3-8B (что уже половина успеха, учитывая мощь Qwen) в качестве декодера. В отличие от многих, кто замораживает визуальную часть, Stepfun разморозили все и тренировали модель в один прогон на 1,2 трлн. токенов. Это позволило визуальной и языковой частям модели не просто сосуществовать, а реально срастись и притереться друг к другу. После этого модель прогнали через адский RL-цикл (RLVR+RLHF) на 1400+ итераций, чтобы модель научилась жестко ризонить. 🟡Тесты В бенчмарках цифры действительно страшные (в хорошем смысле) для такого размера: 🟢MMMU: 78.11 (SeRe) / 80.11 (PaCoRe). 🟢MathVista: 83.97 🟢AIME 2025: 87.66 (SeRe) / 94.43 (PaCoRe) 🟢OCRBench: 86.75 (отлично читает документы). Для сравнения: GLM-4.6V на 106B выдает на MMMU только 75.20. Инженерная хитринка кроется в методологии тестирования. Видите в результатах тестов пометку PaCoRe? PaCoRe (Parallel Coordinated Reasoning): Чтобы получить топовые цифры, модель использует test-time compute. Она запускает 16 параллельных роллаутов, собирает доказательства из разных веток и синтезирует ответ. На инференсе это будет стоить вам в 16 раз "дороже" по ресурсам, чем обычный прогон. В стандартном режиме (SeRe) модель все еще хороша, но уже не выглядит как "убийца всех топов". Кстати, Stepfun честно признались, что в отчетах накосячили с бенчмарками конкурента Qwen3VL-8B из-за неверного max_tokens. Извинились, обещают пересчитать. Это добавляет доверия, но напоминает, что бенчмарки - дело тонкое. В общем, модель - отличный кандидат для локального использования: есть OpenAI-compatible API и vLLM поддерживается (PR вмержили). ⚠️ Если модель зацикливается при генерации - обновите конфиг, там был баг с eos_token_id, который уже пофиксили. 📌Лицензирование: Apache 2.0 License. 🟡Модель 🟡Arxiv 🟡Demo @ai_machinelearning_big_data #AI#ML#VLM#STEP3#StepFunAI

AI一线|ShareCentre

@ShareCentre · Post #7252 · 04/30/2026, 01:58 PM

DeepSeek 发布 Thinking with Visual Primitives:让多模态模型“边指边想” DeepSeek 多模态团队发布技术报告 Thinking with Visual Primitives,提出一种面向视觉推理的新范式:不再只让模型用语言写出思维链,而是在推理过程中同步使用点(points)和框(bounding boxes)作为“视觉认知锚点”,让模型像人类数数、找路、看图推理时用手指辅助一样,把抽象语言推理落到具体图像坐标上。 这项工作将问题定义为 Reference Gap:传统 Chain-of-Thought 主要停留在语言空间,面对密集空间布局时,很难精确指向“这个物体”“那条路径”或“下一步位置”,容易导致推理链中的指代混乱、逻辑坍塌和幻觉。 📌 核心思路:让模型“Point while it reasons” DeepSeek 的方法是把 points 和 bounding boxes 直接插入推理轨迹,作为视觉推理的最小单元。 - points:用于定位某个具体位置,例如数物体、标记路径节点、指向关键区域 - bounding boxes:用于框定视觉对象或空间范围,帮助模型维持稳定指代 - visual primitives:成为模型推理过程的一部分,而不只是最终输出的标注结果 换句话说,模型不是先“看图”,再用纯文本解释;而是在思考过程中不断把语言概念绑定到图像坐标上。 ⚙️ 解决什么问题? 报告重点面向三类任务: - Counting:顺序扫描与验证,减少漏数、重复数 - Spatial Reasoning:多跳空间逻辑推理,例如判断多个对象之间的位置关系 - Topological Reasoning:迷宫导航、路径追踪等结构化视觉推理任务 DeepSeek 表示,该方法尤其针对复杂结构推理中的 Reference Gap,而不是单纯追求“看得更清楚”。此前多模态模型常用高分辨率裁剪、图像重看等方式缓解 Perception Gap,但在需要精确指代和持续追踪的位置推理中,语言本身仍然不够精确。 📎 性能与模型基础 项目 README 显示,该方法构建在 DeepSeek-V4-Flash 架构基础上,并采用视觉 token 压缩:每 4 个 visual tokens 的 KV cache 压缩为 1 个 entry,以降低图像 token 消耗。 DeepSeek 称,在与研究重点相关的计数和空间推理基准上,该模型在更低图像 token 预算和较紧凑模型规模下,表现可对齐 GPT-5.4、Claude Sonnet 4.6、Gemini 3 Flash 等前沿模型。官方同时强调,这些成绩只覆盖论文相关评测维度,并不代表模型整体能力对比。 🔙 背景:DeepSeek 从长上下文走向视觉推理 这一发布紧接 DeepSeek-V4 预览版之后。此前 V4 系列强调 1M 上下文、DSA 稀疏注意力、Agentic Coding 与长上下文效率,V4-Flash 则定位更快、更便宜的轻量版本。 Thinking with Visual Primitives 可以看作 DeepSeek 在 V4 架构上的一次多模态扩展:从“长文本 / Agent 推理效率”进一步走向“视觉结构推理效率”。 ⚔️ 竞品对比 - OpenAI / Anthropic / Google:当前前沿多模态模型普遍具备图像理解、视觉问答和一定的视觉思维链能力,但多数仍以语言链条表达推理过程 - Qwen / MiMo / GLM:国产多模态模型近期密集更新,Qwen3.5-Omni、MiMo-V2.5、GLM-5V-Turbo 分别强调全模态、Agent 能力和视觉编程 - DeepSeek:此次切入点更偏“视觉推理机制”本身,用 points 和 boxes 作为可解释、可追踪的中间推理单元 这使 DeepSeek 的差异化不只是“多模态输入”,而是把视觉坐标变成推理语言的一部分。 🏢 DeepSeek 近况 DeepSeek 近期保持“技术报告 + 开源仓库 + 后续释放数据/权重”的节奏。官方表示,Thinking with Visual Primitives 的内部基准和部分 cold-start 数据将于未来公开,模型权重会集成进 foundation model 并在未来发布。 这延续了 DeepSeek 过去以技术路线和工程效率建立影响力的打法:先公开方法和报告,再逐步释放更完整的生态资源。 📎 资源链接 - 原推文:https://x.com/PKUCXK/status/2049798862504944117 - GitHub 仓库:https://github.com/deepseek-ai/Thinking-with-Visual-Primitives - 技术报告:https://github.com/deepseek-ai/Thinking-with-Visual-Primitives/blob/main/Thinking_with_Visual_Primitives.pdf - 相关背景:DeepSeek-V4 预览版发布并开源:https://t.me/ShareCentre/7236 #DeepSeek#多模态#视觉推理#VLM#AI大模型#ThinkingWithVisualPrimitives

Data Science Jobs

@datasciencejobs · Post #2751 · 06/04/2025, 02:15 PM

#Senior#DataScientist#ML#NLP#LLM#VLM#matching#DS#fulltime#ecommerce Senior Data Scientist (NLP/LLM/VLM) 💼 Ozon Tech 💰 От 455 000 ₽ gross совокупный доход Команда занимается развитием автоматического матчинга — технологии поиска одинаковых товаров как внутри Ozon, так и между Ozon и другими маркетплейсами. В работе — масштабные проекты с использованием LLM, NLP и VLM, направленные на повышение точности и полноты поиска дубликатов и объединения товарных карточек. Основные задачи: — Аналитика текущих проблем матчинга; — Обучение новых NLP-моделей (bi-encoder, late fusion, early fusion); — Адаптация новых LLM/VLM-моделей. Требования: — 4+ лет коммерческого опыта в Data Science; — 2+ года — в задачах NLP; — Опыт обучения и вывода ML-моделей в прод; — Знание современных и классических NLP-подходов; — Уверенное владение Python и PySpark (bigdata датасеты собираем на Hadoop-кластере); — Знание алгоритмов и структур данных; — Проактивность, ответственность, нацеленность на результат. Будет плюсом: — Участие в ML-соревнованиях; — Опыт построения протоколов и пайплайнов разметки данных; — Опыт работы с задачами матчинга / entity resolution. Что предлагаем: — Динамичный и быстроразвивающийся бизнес, ресурсы, возможность сделать вместе лучший продукт на рынке e-commerce; — Свобода решений, внимание к качеству инженерии; — Сильную профессиональную команду; — Возможность развиваться вместе с бизнесом; — От 455 000 ₽ gross совокупный доход. 📩Контакт: [email protected] — присылай резюме, обсудим детали.

GitHub Trends

@githubtrending · Post #14897 · 07/02/2025, 01:00 PM

#python#ernie#ernie_45#ernie_45_vl#erniekit#llm#vlm ERNIE 4.5 is a powerful AI model family that understands and generates text, images, and videos together, thanks to its special design that shares knowledge across these types without losing quality. It includes large models with billions of parameters and smaller efficient ones, all trained using the PaddlePaddle framework for fast and effective use. ERNIE 4.5 excels in tasks like language understanding, visual reasoning, and following instructions, often outperforming other top models. It also offers tools for easy training and deployment on various hardware. This means you can use ERNIE 4.5 for advanced AI applications involving text and visuals with high accuracy and efficiency, supported by open-source resources for customization and development[1][3][5]. https://github.com/PaddlePaddle/ERNIE

GitHub Trends

@githubtrending · Post #14699 · 05/12/2025, 01:00 PM

#typescript#agent#browser_use#computer_use#electron#gui_agents#mcp#mcp_server#vision#vite#vlm Agent TARS is a powerful tool that helps automate tasks using AI. It integrates with many tools and can handle complex tasks like web scraping and data analysis. This makes it easier to manage workflows and reduces errors. Users can automate tasks in just a few steps, making it very efficient. Agent TARS also supports advanced browser operations and has a user-friendly desktop app, which makes it easy to use for anyone. Overall, it helps users save time and work more efficiently. https://github.com/bytedance/UI-TARS-desktop

Venture Village Wall 🦄

@venturevillagewall · Post #4169 · 02/16/2025, 10:00 PM

Major AI Investments and Developments - France to invest €109 billion in AI, boosting Mistral's prospects. Read more - Elon Musk plans to pay $100 billion to buy OpenAI and prevent its commercialization. Details here - Research shows LLMs have better performance improvements compared to VLMs. GraphVLM Progress - OpenAI has new features in o1 and o3-mini, allows document uploads, increase to 50 queries for Plus subscribers. More info - Musk claims Grok 3 will outperform OpenAI’s offerings. Read about Grok - OpenAI to finalize its first custom chip this year to enhance trading with Nvidia. Reuters news #AI#OpenAI#ElonMusk#France#Investment#Chips#Mistral#LLM#VLM#DeepResearch#Grok#Crypto#Nvidia#TechNews#Finance#Market#Progress#Innovation#Data#Analysis

12
PreviousPage 1 of 2Next