TGTGInsightтелеграм анализLIVE / telegram public index
← Такты, стеки, два колеса

TGINSIGHT SIMILAR POSTS

Намери подобно съдържание

Изходен канал @clockstackwheels · Post #11 · 15.04

Новый универсальный дрон DJI Air 2S Пожалуй, я буду разбавлять длинные статьи небольшими заметками из мира технологий, а то канал ощущается тяжеловесным. Но, чтобы не быть бестолковым агрегатором новостей, буду дополнять собственным мнением и/или опытом, связанным с темой. Компания DJI только что выпустила новый квадрокоптер — DJI Air 2S. Складное и достаточно компактное устройство весом 600г, является своеобразным гибридом линеек Mavic Mini и Mavic Air. Кстати, обратите внимание на отсутствие слова Mavic в названии. Хотя на офсайте дрон находится в разделе Mavic, но теперь это просто DJI Air, что намекает на полностью отдельную линейку. Из важных особенностей: дюймовый сенсор, который по заявлению производителя может чисто снимать даже в темноте. По личному опыту могу сказать, что в темноте дроны отрабатывают лучше, чем от них ожидаешь, приложу ниже свой снимок Петропавловки с DJI Mavic Air первого поколения. Ещё формально заявлен 8-кратный зум, но это ерунда, потому что он цифровой — тот же эффект получится, если растягивать картинку в видеоредакторе. И второй важный момент — акцент на автоматизацию. В предыдущих моделях тоже были полуавтоматические режимы — дрон облетает вокруг тебя или, например, сам подлетает в точку над тобой и начинает подниматься, смотря вниз. Я почти никогда этими режимами не пользовался, потому что вручную всегда снимешь лучше, если уметь. Но это показывает характерную тенденцию — способность быстро получать сгенерированный контент для условных соцсетей. В своё время телефоны вытеснили с потребительского рынка большие фотокамеры не только из-за того, что телефон у каждого с собой, но и из-за простоты получения результата, который годится для демонстрации широким массам. В отдельной камере ты можешь долго возиться с настройками и фотошопом, а затем получить крутой результат. В телефоне ты можешь нажать одну кнопку и получить сносный результат, который отправишь в Инстаграм. С учётом того, что время жизни контента в интернете сокращается, идёт переход на форматы вроде Историй и коротких роликов — тенденция очевидна. Здесь добавили режимы, благодаря которым дрон сам летает вокруг тебя несколько минут в разных позах, а затем сам же склеивает из этого типа кинематографичное видео. Это гораздо хуже, чем снимать самому, если ты умеешь, но гораздо лучше, чем могут (и хотят!) делать 90% людей. Чтобы внедрить эту функцию, DJI якобы улучшили определение препятствий и режим слежения за движущимся объектом. По опыту могу сказать, что и то и другое — полный отстой, даже у лучшей в мире дроно-компании. Хвалёное определение препятствий полностью бессильно перед ветками и проводами — то есть тогда, когда оно действительно нужно. Потому что стену и ствол дерева я без проблем замечу сам. Что касается ActiveTrack (слежение за целью), то, опять же, оно работает нормально только при полном отсутствии препятствий. Вот как в рекламных роликах по ссылке, которую я привёл — если ты едешь по чистому полю или берегу моря. В реальных условиях даже небольшой ряд кустов вокруг дороги делает функцию неюзабельной. И вторая проблема — общая низкая скорость этих дронов. Здесь заявляют около 70 км/ч в спортивном режиме в безветрие. По факту получается 40-50 км/ч, даже для слежения за велосипедом скорости маловато, а слежение за автомобилем или мотоциклом адекватно организовать не получится. Тем не менее, при всех недостатках новая модель выглядит, как крутой универсальный дрон на все случаи жизни, и в особенности для путешествий (если вы не боитесь, что в аэропорту заставят его выкидывать). Обычная версия стоит $999, а расширенный комплект $1299, что по меркам качественных дронов не дорого. #gadgets#tech

Резултати

Намерени 1 подобни публикации

Търсене: #vrag

当前筛选 #vrag清除筛选
Machinelearning

@ai_machinelearning_big_data · Post #9841 · 09.04.2026 г., 13:20

🌟 VimRAG: мультимодальный RAG-агент, который держит контекст в виде графа памяти. Tongyi Lab (Alibaba Group) опубликовала VimRAG - фреймворк агентного RAG для работы с текстом, изображениями и видео. Проект развивает прошлогодний VRAG-RL и решает проблему мультимодального RAG: визуальные данные тяжелые по токенам, но семантически разрежены, а классическая ReAct-история забивает контекст шумом и провоцирует повторные бесполезные запросы к поиску. Вместо журнала наблюдений VimRAG моделирует рассуждение как динамический направленный ацикличный граф. Каждая вершина хранит подзапрос, действие агента, текстовое саммари и банк визуальных токенов. Ребра фиксируют логические зависимости между шагами. Такой граф позволяет агенту отличать тупиковую ветку от новой гипотезы и не уходить в циклы повторных поисков. 🟡Поверх графа работает Graph-Modulated Visual Memory Encoding. Бюджет визуальных токенов распределяется с учетом исходящей степени в графе, экспоненциального временного затухания (имитация забывания) и рекурсивной обратной связи от потомков. Ключевым фрагментам достается высокое разрешение, а второстепенные кадры сжимаются или отбрасываются. Для видео задействована способность VLM привязывать содержимое к временной шкале (извлечение ключевых кадров по таймкодам). 🟡Третий компонент - Graph-GPO. GGPO строит критический путь от корня к ответу и накладывает градиентную маску, исключая тупиковые узлы из положительных примеров, а ценные ретривы - из отрицательных. По графикам обучения это дает более быструю сходимость, чем базовый GSPO без прунинга. 🟡Тесты 🟢VimRAG обходит Vanilla RAG, ReAct, VideoRAG, UniversalRAG, MemAgent и Mem1 на 9 бенчмарках (HotpotQA и SQuAD до SlideVQA, MMLongBench, LVBench и XVBench). 🟢На Qwen3-VL-8B-Instruct средний скор поднимается с 43,6 до 50,1, на 4B-версии - с 40,6 до 45,2. При этом средняя длина траектории ниже, чем у ReAct и Mem1: структурированная память съедает меньше действий на ответ. В репозитории доступны: 🟠тренировочный фреймворк VRAG-RL, демо VRAG на тестовой Qwen2.5-VL-7B-VRAG через vLLM (нужна A100 80GB); 🟠демо на API Qwen3.5-Plus через DashScope (с визуализацией DAG рассуждения и расширенным ризонингом). Поисковый движок построен на FAISS и поддерживает эмбеддинги GVE-3B/7B и Qwen3-VL-Embedding-2B/8B. Индексировать можно изображения, PDF (через конвертацию) и нарезанное на чанки видео. Код трейна самого VimRAG обещают выложить после внутреннего ревью Alibaba. 🟡Arxiv 🟡Модель 🖥GitHub @ai_machinelearning_big_data #AI#ML#RAG#VRAG#TongyiLab