TGTGInsightтелеграм анализLIVE / telegram public index
← Такты, стеки, два колеса

TGINSIGHT SIMILAR POSTS

Намери подобно съдържание

Изходен канал @clockstackwheels · Post #381 · 13.06

Семь откровений для меня о нашем дорожном движении. На одометре уже более 1500 км. Конечно, по меркам тех, кто ездит на автомобиле на работу, это мало. Но я до сих пор считаю, что в качестве регулярного транспорта автомобиль подходит только для редких сценариев. Мои поездки это в основном КАД, ЗСД, область, передвижение между окраинными точками. В город стараюсь не соваться. Но иногда приходится. Что я заметил, чего раньше не знал или не замечал: 1. Люди не сильно заморачиваются относительно своего положения в полосе. Раньше я боялся, что моё пока не развитое чувство габаритов будет мешать мне ехать по центру полосы. Но очень многие едут не по центру, и им пофиг. 2. На сигнал обычно плевать. Ещё ни разу, услышав сигнал какого-то другого водителя, я не идентифицировал ни его источник, ни причину возникновения. «Просто какой-то нервный тип гудит» — вот так это ощущается. 3. Самое часто нарушаемое правило, кроме скоростного режима — знак 5.15.1 «Направления движения по полосам». Кажется, на него водители кладут самый большой болт, который возможно. Просто едут как им удобнее. 4. Очень опасных мудаков меньше, чем рассказывают, но они опаснее, чем кажется. Есть люди, полностью отбитые на голову. К сожалению, система допустила их к вождению (и вообще к нахождению на свободе, а не на лечении). Но их довольно мало, я за полгода встретил 2-3 случая критически опасных нарушений. 5. Поток по непонятной мне причине пропускает вклинивающихся мудаков. Бывает, когда водители "легально" вклиниваются в плотно стоящую колонну: например, при выезде на дорогу с прилегающей территории, при обозначенном разметкой сужении итд. Но часто удивительно большой процент водителей объезжает пробку по обочине или по полосам "только налево"/"только направо". Я не понимаю, зачем водители в основой стоящей колонне их пропускают перед собой. Это плохо и с личной точки зрения (ты сам не двигаешься вперёд, пока пропускаешь) и с общественной (поощрение мудаков). Я стараюсь в таких ситуациях максимально близко держаться к впереди идущему автомобилю и не пропускать. Но многие (прям многие!) притормаживают, давая мудиле проехать. Я не понимаю, почему. 6. Мест, где дороги спроектированы с очевидными ошибками, много, а сама ошибка становится видна после буквально одного проезда по заданному участку. Люди, которые отвечают за проектирование дорог, сами по ним не ездят, по крайней мере, будучи за рулём. 7. От припаркованного транспорта вреда для водителей не меньше, чем для пешеходов. Я думал, что водителям просто плевать на условных мам с колясками (хотя некоторые из этих мам — их жёны). Но улиц, на которых из-за припаркованных автомобилей не разъехаться самим водителям, поразительно много. Приходится подвергать опасности себя и свою машину, выполнять небезопасные маневры, которые порой не предусмотрены не только правилами, но и конструкцией автомобиля. Такого много не только во дворах, но и на внешних улицах, как на окраине, так и в центре. Тоже за пределами моего понимания. #life

Hashtags

Резултати

Намерени 1 подобни публикации

Търсене: #vrag

当前筛选 #vrag清除筛选
Machinelearning

@ai_machinelearning_big_data · Post #9841 · 09.04.2026 г., 13:20

🌟 VimRAG: мультимодальный RAG-агент, который держит контекст в виде графа памяти. Tongyi Lab (Alibaba Group) опубликовала VimRAG - фреймворк агентного RAG для работы с текстом, изображениями и видео. Проект развивает прошлогодний VRAG-RL и решает проблему мультимодального RAG: визуальные данные тяжелые по токенам, но семантически разрежены, а классическая ReAct-история забивает контекст шумом и провоцирует повторные бесполезные запросы к поиску. Вместо журнала наблюдений VimRAG моделирует рассуждение как динамический направленный ацикличный граф. Каждая вершина хранит подзапрос, действие агента, текстовое саммари и банк визуальных токенов. Ребра фиксируют логические зависимости между шагами. Такой граф позволяет агенту отличать тупиковую ветку от новой гипотезы и не уходить в циклы повторных поисков. 🟡Поверх графа работает Graph-Modulated Visual Memory Encoding. Бюджет визуальных токенов распределяется с учетом исходящей степени в графе, экспоненциального временного затухания (имитация забывания) и рекурсивной обратной связи от потомков. Ключевым фрагментам достается высокое разрешение, а второстепенные кадры сжимаются или отбрасываются. Для видео задействована способность VLM привязывать содержимое к временной шкале (извлечение ключевых кадров по таймкодам). 🟡Третий компонент - Graph-GPO. GGPO строит критический путь от корня к ответу и накладывает градиентную маску, исключая тупиковые узлы из положительных примеров, а ценные ретривы - из отрицательных. По графикам обучения это дает более быструю сходимость, чем базовый GSPO без прунинга. 🟡Тесты 🟢VimRAG обходит Vanilla RAG, ReAct, VideoRAG, UniversalRAG, MemAgent и Mem1 на 9 бенчмарках (HotpotQA и SQuAD до SlideVQA, MMLongBench, LVBench и XVBench). 🟢На Qwen3-VL-8B-Instruct средний скор поднимается с 43,6 до 50,1, на 4B-версии - с 40,6 до 45,2. При этом средняя длина траектории ниже, чем у ReAct и Mem1: структурированная память съедает меньше действий на ответ. В репозитории доступны: 🟠тренировочный фреймворк VRAG-RL, демо VRAG на тестовой Qwen2.5-VL-7B-VRAG через vLLM (нужна A100 80GB); 🟠демо на API Qwen3.5-Plus через DashScope (с визуализацией DAG рассуждения и расширенным ризонингом). Поисковый движок построен на FAISS и поддерживает эмбеддинги GVE-3B/7B и Qwen3-VL-Embedding-2B/8B. Индексировать можно изображения, PDF (через конвертацию) и нарезанное на чанки видео. Код трейна самого VimRAG обещают выложить после внутреннего ревью Alibaba. 🟡Arxiv 🟡Модель 🖥GitHub @ai_machinelearning_big_data #AI#ML#RAG#VRAG#TongyiLab