TGTGInsightтелеграм анализLIVE / telegram public index
← Такты, стеки, два колеса

TGINSIGHT SIMILAR POSTS

Намери подобно съдържание

Изходен канал @clockstackwheels · Post #1089 · 5.05

Сегодня закрыли Skype после 22 лет работы, ушла эпоха. Когда-то мне приходила в голову такая мысль: если подростком вы пошли в кино на фильм с взрослыми известными актёрами, то вероятнее всего в какой-то момент прочитаете новость о смерти каждого из них. Вот и с сервисами — нашему поколению суждено читать новости о смерти того, чем мы пользовались в школе, университете, в более молодые годы. Я вот застал смерть Flash, ICQ (и QIP), ATI (видеокарты), мобильных веток Nokia и Siemens, Башорга и Лурка, НародРу, SonyEricsson, Motorola, WinAmp. Есть вещи, которые номинально существуют, но в любом значимом смысле из практического поля вышли: ЖЖ, Rambler, FlyBoard... Интересно, что десктопный софт, похоже, крепче, чем интернет-сервисы. Помню в школе начинал изучать 3D max, тогда ещё принадлежавший фирме Discreet, и вот он до сих пор живее всех живых, правда уже под эгидой Autodesk. Даже Blender его не убил, что не перестаёт меня удивлять. Или MS Office — всех нас переживёт, похоже. Microsoft в своё время сделали превосходную ставку, догадавшись оцифровать самую базовую офисную рутину. В 2025 году у нас везде ИИ и SPA с формами, но в бухгалтерию ты всё равно кидаешь docx-файл со вставленным сканом собственной подписи. Погуглил: даже Dreamweaver существует и обновляется, помните такой? Для меня он всегда будет продуктом Macromedia. Да, я был там, Гэндальф, 3000 лет назад. А эти ваши интернет-сервисы мрут, как мухи. Текстам в интернете каюк (и тексто-ориентированным соцсетям, как следствие). Фотки ещё держатся, но уже в основном на телефонах: никто не переживает от отсутствия вменяемой версии Инсты для десктопа. Видео... уверен, мы застанем ещё убийство Ютуба короткими вертикальными роликами. Возможно сайт по домену «Ютуб» будет открываться, но не такой, как сейчас. А дальше, думаю, когда смартфоны научатся посылать бессодержательный электрический импульс прямо в центр удовольствия, тогда уже и короткие видео пропадут. Сколько из того, чем я пользуюсь сейчас каждый день, сохранится через 10, 20 лет? 50? Вот и посмотрим. Skype RIP, о тебе только хорошие воспоминания, хоть и недолгие. #web

Hashtags

Резултати

Намерени 1 подобни публикации

Търсене: #vrag

当前筛选 #vrag清除筛选
Machinelearning

@ai_machinelearning_big_data · Post #9841 · 09.04.2026 г., 13:20

🌟 VimRAG: мультимодальный RAG-агент, который держит контекст в виде графа памяти. Tongyi Lab (Alibaba Group) опубликовала VimRAG - фреймворк агентного RAG для работы с текстом, изображениями и видео. Проект развивает прошлогодний VRAG-RL и решает проблему мультимодального RAG: визуальные данные тяжелые по токенам, но семантически разрежены, а классическая ReAct-история забивает контекст шумом и провоцирует повторные бесполезные запросы к поиску. Вместо журнала наблюдений VimRAG моделирует рассуждение как динамический направленный ацикличный граф. Каждая вершина хранит подзапрос, действие агента, текстовое саммари и банк визуальных токенов. Ребра фиксируют логические зависимости между шагами. Такой граф позволяет агенту отличать тупиковую ветку от новой гипотезы и не уходить в циклы повторных поисков. 🟡Поверх графа работает Graph-Modulated Visual Memory Encoding. Бюджет визуальных токенов распределяется с учетом исходящей степени в графе, экспоненциального временного затухания (имитация забывания) и рекурсивной обратной связи от потомков. Ключевым фрагментам достается высокое разрешение, а второстепенные кадры сжимаются или отбрасываются. Для видео задействована способность VLM привязывать содержимое к временной шкале (извлечение ключевых кадров по таймкодам). 🟡Третий компонент - Graph-GPO. GGPO строит критический путь от корня к ответу и накладывает градиентную маску, исключая тупиковые узлы из положительных примеров, а ценные ретривы - из отрицательных. По графикам обучения это дает более быструю сходимость, чем базовый GSPO без прунинга. 🟡Тесты 🟢VimRAG обходит Vanilla RAG, ReAct, VideoRAG, UniversalRAG, MemAgent и Mem1 на 9 бенчмарках (HotpotQA и SQuAD до SlideVQA, MMLongBench, LVBench и XVBench). 🟢На Qwen3-VL-8B-Instruct средний скор поднимается с 43,6 до 50,1, на 4B-версии - с 40,6 до 45,2. При этом средняя длина траектории ниже, чем у ReAct и Mem1: структурированная память съедает меньше действий на ответ. В репозитории доступны: 🟠тренировочный фреймворк VRAG-RL, демо VRAG на тестовой Qwen2.5-VL-7B-VRAG через vLLM (нужна A100 80GB); 🟠демо на API Qwen3.5-Plus через DashScope (с визуализацией DAG рассуждения и расширенным ризонингом). Поисковый движок построен на FAISS и поддерживает эмбеддинги GVE-3B/7B и Qwen3-VL-Embedding-2B/8B. Индексировать можно изображения, PDF (через конвертацию) и нарезанное на чанки видео. Код трейна самого VimRAG обещают выложить после внутреннего ревью Alibaba. 🟡Arxiv 🟡Модель 🖥GitHub @ai_machinelearning_big_data #AI#ML#RAG#VRAG#TongyiLab