TGTGInsightаналитика telegramLIVE / telegram public index
К списку каналов
Machinelearning avatar

TGINSIGHT CHAT

Machinelearning

@ai_machinelearning_big_data

Технологии

Погружаемся в машинное обучение и Data Science Показываем как запускать любые LLm на пальцах. По всем вопросам - @haarrp @itchannels_telegram -🔥best channels Реестр РКН: clck.ru/3Fmqri

Подписчики31.3万Текущее число подписчиков
Постов1,009Проиндексировано постов
Охват94,700Просмотры последних постов
Последние посты

Последние посты

Тег: #rag · 3 постов

当前筛选 #rag清除筛选

Опубликован 9 апр.

🌟 VimRAG: мультимодальный RAG-агент, который держит контекст в виде графа памяти. Tongyi Lab (Alibaba Group) опубликовала VimRAG - фреймворк агентного RAG для работы с текстом, изображениями и видео. Проект развивает прошлогодний VRAG-RL и решает проблему мультимодального RAG: визуальные данные тяжелые по токенам, но семантически разрежены, а классическая ReAct-история забивает контекст шумом и провоцирует повторные бесполезные запросы к поиску. Вместо журнала наблюдений VimRAG моделирует рассуждение как динамический направленный ацикличный граф. Каждая вершина хранит подзапрос, действие агента, текстовое саммари и банк визуальных токенов. Ребра фиксируют логические зависимости между шагами. Такой граф позволяет агенту отличать тупиковую ветку от новой гипотезы и не уходить в циклы повторных поисков. 🟡Поверх графа работает Graph-Modulated Visual Memory Encoding. Бюджет визуальных токенов распределяется с учетом исходящей степени в графе, экспоненциального временного затухания (имитация забывания) и рекурсивной обратной связи от потомков. Ключевым фрагментам достается высокое разрешение, а второстепенные кадры сжимаются или отбрасываются. Для видео задействована способность VLM привязывать содержимое к временной шкале (извлечение ключевых кадров по таймкодам). 🟡Третий компонент - Graph-GPO. GGPO строит критический путь от корня к ответу и накладывает градиентную маску, исключая тупиковые узлы из положительных примеров, а ценные ретривы - из отрицательных. По графикам обучения это дает более быструю сходимость, чем базовый GSPO без прунинга. 🟡Тесты 🟢VimRAG обходит Vanilla RAG, ReAct, VideoRAG, UniversalRAG, MemAgent и Mem1 на 9 бенчмарках (HotpotQA и SQuAD до SlideVQA, MMLongBench, LVBench и XVBench). 🟢На Qwen3-VL-8B-Instruct средний скор поднимается с 43,6 до 50,1, на 4B-версии - с 40,6 до 45,2. При этом средняя длина траектории ниже, чем у ReAct и Mem1: структурированная память съедает меньше действий на ответ. В репозитории доступны: 🟠тренировочный фреймворк VRAG-RL, демо VRAG на тестовой Qwen2.5-VL-7B-VRAG через vLLM (нужна A100 80GB); 🟠демо на API Qwen3.5-Plus через DashScope (с визуализацией DAG рассуждения и расширенным ризонингом). Поисковый движок построен на FAISS и поддерживает эмбеддинги GVE-3B/7B и Qwen3-VL-Embedding-2B/8B. Индексировать можно изображения, PDF (через конвертацию) и нарезанное на чанки видео. Код трейна самого VimRAG обещают выложить после внутреннего ревью Alibaba. 🟡Arxiv 🟡Модель 🖥GitHub @ai_machinelearning_big_data #AI#ML#RAG#VRAG#TongyiLab

23,500 views

Опубликован 17 июл.

🌟Amazon встроила векторную базу данных прямо в хранилище S3. Amazon анонсировала S3 Vectors - нативную поддержку векторного поиска прямо внутри своего вездесущего объектного хранилища. Заявлено, что это может снизить затраты на хранение и обработку векторов до 90%. По сути, AWS предлагает не отдельный сервис, а новый тип бакета vector bucket. Внутри него вы создаете векторные индексы, указывая размерность векторов и метрику расстояния (косинусную или евклидову). 🟡Дальше все работает как магия Вы просто загружаете в индекс свои эмбеддинги вместе с метаданными для фильтрации, а S3 берет на себя всю грязную работу по хранению, автоматической оптимизации и обеспечению субсекундного ответа на запросы. Никакого управления инфраструктурой. Один бакет может содержать до 10 тысяч индексов, а каждый индекс, в свою очередь, десятки миллионов векторов. 🟡Главная сила этого решения - в экосистеме. S3 Vectors бесшовно интегрируется с Bedrock Knowledge Bases. Теперь при создании базы знаний для RAG-приложения можно просто указать S3-бакет в качестве векторного хранилища. Процесс создания RAG-пайплайна для тех, кто уже живет в облаке AWS, упрощается до нескольких кликов. То же самое касается и SageMaker Unified Studio, где эта интеграция тоже доступна из коробки. 🟡"One more thing" анонса - умная интеграция с сервисом OpenSearch. AWS предлагает гибкую, многоуровневую стратегию. Нечасто используемые или «холодные» векторы можно экономично хранить в S3 Vectors. А когда для части данных потребуется максимальная производительность и низкая задержка в реальном времени, например, для системы рекомендаций, их можно быстро экспортировать в OpenSearch. Это очень прагматичный инженерный подход, позволяющий балансировать между стоимостью и производительностью. Пока сервис находится в статусе превью и доступен в регионах US East (N. Virginia), US East (Ohio), US West (Oregon), Europe (Frankfurt), and Asia Pacific (Sydney) Regions. Попробовать S3 Vectors можно в Amazon S3 console. 🟡Статья 🖥Github @ai_machinelearning_big_data #AI#ML#RAG#Amazon

39,400 views

Опубликован 10 июл.

⚡️ Китайские исследователи из Shanghai Jiao Tong и Zhejiang University представили MemOS — первую в мире "операционную систему памяти" для ИИ. Обычные LLM быстро забывают информацию, а дообучать их — долго и дорого. В новой работе предлагают радикально другой подход: MemOS превращает память в часть операционной системы. 🟢Память как файлы: Модель может *записывать, перемещать и удалять* знания, как будто работает с файлами, и делать это прямо во время работы, а не только на этапе обучения. 🟢MemCube — контейнер знаний: Каждое знание упаковывается в кубик с метками времени и авторства. Планировщик сам решает, где хранить этот "куб" — в тексте, GPU‑кэше или в виде маленького патча весов. 🟢Умная экономия: MemOS работает с 1500 токенами памяти, но достигает такой же точности, как если бы модель загружала весь контекст. При этом скорость — как у облегчённых моделей. 🟢Мгновенная подгрузка: На тестах с Qwen2.5‑72B переключение нужных "кубов" в кэш снижает задержку первого токена на 91.4%, *без изменения ответа*. 🟢Результаты: MemOS набрал 73.31 балла по LLM‑Judge на LOCOMO-бенчмарке — почти на 9 баллов больше ближайшего конкурента. Особенно хорошо работает на сложных задачах с несколькими шагами и временными зависимостями. 💡 Итог: память как ОС — это не просто удобно, это ускоряет модель, повышает точность и даёт контроль над знаниями. Установка: pip install MemoryOS 🟠GitHub 🟠Проект @ai_machinelearning_big_data #MemoryOS#agentmemory#rag#kvcache

31,800 views