← Machinelearning
Machinelearning avatar

TGINSIGHT POST

Post #9841

@ai_machinelearning_big_data

Machinelearning

ΠŸΡ€ΠΎΡΠΌΠΎΡ‚Ρ€Ρ‹23,500ΠšΠΎΠ»ΠΈΡ‡Π΅ΡΡ‚Π²ΠΎ просмотров
ΠžΠΏΡƒΠ±Π»ΠΈΠΊΠΎΠ²Π°Π½9 Π°ΠΏΡ€.09.04.2026, 13:20
Π‘ΠΎΠ΄Π΅Ρ€ΠΆΠΈΠΌΠΎΠ΅ поста

Π‘ΠΎΠ΄Π΅Ρ€ΠΆΠΈΠΌΠΎΠ΅

🌟 VimRAG: ΠΌΡƒΠ»ΡŒΡ‚ΠΈΠΌΠΎΠ΄Π°Π»ΡŒΠ½Ρ‹ΠΉ RAG-Π°Π³Π΅Π½Ρ‚, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ Π΄Π΅Ρ€ΠΆΠΈΡ‚ контСкст Π² Π²ΠΈΠ΄Π΅ Π³Ρ€Π°Ρ„Π° памяти. Tongyi Lab (Alibaba Group) ΠΎΠΏΡƒΠ±Π»ΠΈΠΊΠΎΠ²Π°Π»Π° VimRAG - Ρ„Ρ€Π΅ΠΉΠΌΠ²ΠΎΡ€ΠΊ Π°Π³Π΅Π½Ρ‚Π½ΠΎΠ³ΠΎ RAG для Ρ€Π°Π±ΠΎΡ‚Ρ‹ с тСкстом, изобраТСниями ΠΈ Π²ΠΈΠ΄Π΅ΠΎ. ΠŸΡ€ΠΎΠ΅ΠΊΡ‚ Ρ€Π°Π·Π²ΠΈΠ²Π°Π΅Ρ‚ ΠΏΡ€ΠΎΡˆΠ»ΠΎΠ³ΠΎΠ΄Π½ΠΈΠΉ VRAG-RL ΠΈ Ρ€Π΅ΡˆΠ°Π΅Ρ‚ ΠΏΡ€ΠΎΠ±Π»Π΅ΠΌΡƒ ΠΌΡƒΠ»ΡŒΡ‚ΠΈΠΌΠΎΠ΄Π°Π»ΡŒΠ½ΠΎΠ³ΠΎ RAG: Π²ΠΈΠ·ΡƒΠ°Π»ΡŒΠ½Ρ‹Π΅ Π΄Π°Π½Π½Ρ‹Π΅ тяТСлыС ΠΏΠΎ Ρ‚ΠΎΠΊΠ΅Π½Π°ΠΌ, Π½ΠΎ сСмантичСски Ρ€Π°Π·Ρ€Π΅ΠΆΠ΅Π½Ρ‹, Π° классичСская ReAct-история Π·Π°Π±ΠΈΠ²Π°Π΅Ρ‚ контСкст ΡˆΡƒΠΌΠΎΠΌ ΠΈ ΠΏΡ€ΠΎΠ²ΠΎΡ†ΠΈΡ€ΡƒΠ΅Ρ‚ ΠΏΠΎΠ²Ρ‚ΠΎΡ€Π½Ρ‹Π΅ бСсполСзныС запросы ΠΊ поиску. ВмСсто ΠΆΡƒΡ€Π½Π°Π»Π° наблюдСний VimRAG ΠΌΠΎΠ΄Π΅Π»ΠΈΡ€ΡƒΠ΅Ρ‚ рассуТдСниС ΠΊΠ°ΠΊ динамичСский Π½Π°ΠΏΡ€Π°Π²Π»Π΅Π½Π½Ρ‹ΠΉ Π°Ρ†ΠΈΠΊΠ»ΠΈΡ‡Π½Ρ‹ΠΉ Π³Ρ€Π°Ρ„. КаТдая Π²Π΅Ρ€ΡˆΠΈΠ½Π° Ρ…Ρ€Π°Π½ΠΈΡ‚ подзапрос, дСйствиС Π°Π³Π΅Π½Ρ‚Π°, тСкстовоС саммари ΠΈ Π±Π°Π½ΠΊ Π²ΠΈΠ·ΡƒΠ°Π»ΡŒΠ½Ρ‹Ρ… Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ². Π Π΅Π±Ρ€Π° Ρ„ΠΈΠΊΡΠΈΡ€ΡƒΡŽΡ‚ логичСскиС зависимости ΠΌΠ΅ΠΆΠ΄Ρƒ шагами. Π’Π°ΠΊΠΎΠΉ Π³Ρ€Π°Ρ„ позволяСт Π°Π³Π΅Π½Ρ‚Ρƒ ΠΎΡ‚Π»ΠΈΡ‡Π°Ρ‚ΡŒ Ρ‚ΡƒΠΏΠΈΠΊΠΎΠ²ΡƒΡŽ Π²Π΅Ρ‚ΠΊΡƒ ΠΎΡ‚ Π½ΠΎΠ²ΠΎΠΉ Π³ΠΈΠΏΠΎΡ‚Π΅Π·Ρ‹ ΠΈ Π½Π΅ ΡƒΡ…ΠΎΠ΄ΠΈΡ‚ΡŒ Π² Ρ†ΠΈΠΊΠ»Ρ‹ ΠΏΠΎΠ²Ρ‚ΠΎΡ€Π½Ρ‹Ρ… поисков. πŸŸ‘ΠŸΠΎΠ²Π΅Ρ€Ρ… Π³Ρ€Π°Ρ„Π° Ρ€Π°Π±ΠΎΡ‚Π°Π΅Ρ‚ Graph-Modulated Visual Memory Encoding. Π‘ΡŽΠ΄ΠΆΠ΅Ρ‚ Π²ΠΈΠ·ΡƒΠ°Π»ΡŒΠ½Ρ‹Ρ… Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ² распрСдСляСтся с ΡƒΡ‡Π΅Ρ‚ΠΎΠΌ исходящСй стСпСни Π² Π³Ρ€Π°Ρ„Π΅, ΡΠΊΡΠΏΠΎΠ½Π΅Π½Ρ†ΠΈΠ°Π»ΡŒΠ½ΠΎΠ³ΠΎ Π²Ρ€Π΅ΠΌΠ΅Π½Π½ΠΎΠ³ΠΎ затухания (имитация забывания) ΠΈ рСкурсивной ΠΎΠ±Ρ€Π°Ρ‚Π½ΠΎΠΉ связи ΠΎΡ‚ ΠΏΠΎΡ‚ΠΎΠΌΠΊΠΎΠ². ΠšΠ»ΡŽΡ‡Π΅Π²Ρ‹ΠΌ Ρ„Ρ€Π°Π³ΠΌΠ΅Π½Ρ‚Π°ΠΌ достаСтся высокоС Ρ€Π°Π·Ρ€Π΅ΡˆΠ΅Π½ΠΈΠ΅, Π° второстСпСнныС ΠΊΠ°Π΄Ρ€Ρ‹ ΡΠΆΠΈΠΌΠ°ΡŽΡ‚ΡΡ ΠΈΠ»ΠΈ ΠΎΡ‚Π±Ρ€Π°ΡΡ‹Π²Π°ΡŽΡ‚ΡΡ. Для Π²ΠΈΠ΄Π΅ΠΎ задСйствована ΡΠΏΠΎΡΠΎΠ±Π½ΠΎΡΡ‚ΡŒ VLM ΠΏΡ€ΠΈΠ²ΡΠ·Ρ‹Π²Π°Ρ‚ΡŒ содСрТимоС ΠΊ Π²Ρ€Π΅ΠΌΠ΅Π½Π½ΠΎΠΉ шкалС (ΠΈΠ·Π²Π»Π΅Ρ‡Π΅Π½ΠΈΠ΅ ΠΊΠ»ΡŽΡ‡Π΅Π²Ρ‹Ρ… ΠΊΠ°Π΄Ρ€ΠΎΠ² ΠΏΠΎ Ρ‚Π°ΠΉΠΌΠΊΠΎΠ΄Π°ΠΌ). πŸŸ‘Π’Ρ€Π΅Ρ‚ΠΈΠΉ ΠΊΠΎΠΌΠΏΠΎΠ½Π΅Π½Ρ‚ - Graph-GPO. GGPO строит критичСский ΠΏΡƒΡ‚ΡŒ ΠΎΡ‚ корня ΠΊ ΠΎΡ‚Π²Π΅Ρ‚Ρƒ ΠΈ Π½Π°ΠΊΠ»Π°Π΄Ρ‹Π²Π°Π΅Ρ‚ Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚Π½ΡƒΡŽ маску, ΠΈΡΠΊΠ»ΡŽΡ‡Π°Ρ Ρ‚ΡƒΠΏΠΈΠΊΠΎΠ²Ρ‹Π΅ ΡƒΠ·Π»Ρ‹ ΠΈΠ· ΠΏΠΎΠ»ΠΎΠΆΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹Ρ… ΠΏΡ€ΠΈΠΌΠ΅Ρ€ΠΎΠ², Π° Ρ†Π΅Π½Π½Ρ‹Π΅ Ρ€Π΅Ρ‚Ρ€ΠΈΠ²Ρ‹ - ΠΈΠ· ΠΎΡ‚Ρ€ΠΈΡ†Π°Ρ‚Π΅Π»ΡŒΠ½Ρ‹Ρ…. По Π³Ρ€Π°Ρ„ΠΈΠΊΠ°ΠΌ обучСния это Π΄Π°Π΅Ρ‚ Π±ΠΎΠ»Π΅Π΅ Π±Ρ‹ΡΡ‚Ρ€ΡƒΡŽ ΡΡ…ΠΎΠ΄ΠΈΠΌΠΎΡΡ‚ΡŒ, Ρ‡Π΅ΠΌ Π±Π°Π·ΠΎΠ²Ρ‹ΠΉ GSPO Π±Π΅Π· ΠΏΡ€ΡƒΠ½ΠΈΠ½Π³Π°. πŸŸ‘Π’Π΅ΡΡ‚Ρ‹ 🟒VimRAG ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΡ‚ Vanilla RAG, ReAct, VideoRAG, UniversalRAG, MemAgent ΠΈ Mem1 Π½Π° 9 Π±Π΅Π½Ρ‡ΠΌΠ°Ρ€ΠΊΠ°Ρ… (HotpotQA ΠΈ SQuAD Π΄ΠΎ SlideVQA, MMLongBench, LVBench ΠΈ XVBench). 🟒На Qwen3-VL-8B-Instruct срСдний скор поднимаСтся с 43,6 Π΄ΠΎ 50,1, Π½Π° 4B-вСрсии - с 40,6 Π΄ΠΎ 45,2. ΠŸΡ€ΠΈ этом срСдняя Π΄Π»ΠΈΠ½Π° Ρ‚Ρ€Π°Π΅ΠΊΡ‚ΠΎΡ€ΠΈΠΈ Π½ΠΈΠΆΠ΅, Ρ‡Π΅ΠΌ Ρƒ ReAct ΠΈ Mem1: структурированная ΠΏΠ°ΠΌΡΡ‚ΡŒ ΡΡŠΠ΅Π΄Π°Π΅Ρ‚ мСньшС дСйствий Π½Π° ΠΎΡ‚Π²Π΅Ρ‚. Π’ Ρ€Π΅ΠΏΠΎΠ·ΠΈΡ‚ΠΎΡ€ΠΈΠΈ доступны: πŸŸ Ρ‚Ρ€Π΅Π½ΠΈΡ€ΠΎΠ²ΠΎΡ‡Π½Ρ‹ΠΉ Ρ„Ρ€Π΅ΠΉΠΌΠ²ΠΎΡ€ΠΊ VRAG-RL, Π΄Π΅ΠΌΠΎ VRAG Π½Π° тСстовой Qwen2.5-VL-7B-VRAG Ρ‡Π΅Ρ€Π΅Π· vLLM (Π½ΡƒΠΆΠ½Π° A100 80GB); 🟠дСмо Π½Π° API Qwen3.5-Plus Ρ‡Π΅Ρ€Π΅Π· DashScope (с Π²ΠΈΠ·ΡƒΠ°Π»ΠΈΠ·Π°Ρ†ΠΈΠ΅ΠΉ DAG рассуТдСния ΠΈ Ρ€Π°ΡΡˆΠΈΡ€Π΅Π½Π½Ρ‹ΠΌ Ρ€ΠΈΠ·ΠΎΠ½ΠΈΠ½Π³ΠΎΠΌ). ΠŸΠΎΠΈΡΠΊΠΎΠ²Ρ‹ΠΉ Π΄Π²ΠΈΠΆΠΎΠΊ построСн Π½Π° FAISS ΠΈ ΠΏΠΎΠ΄Π΄Π΅Ρ€ΠΆΠΈΠ²Π°Π΅Ρ‚ эмбСддинги GVE-3B/7B ΠΈ Qwen3-VL-Embedding-2B/8B. Π˜Π½Π΄Π΅ΠΊΡΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ ΠΌΠΎΠΆΠ½ΠΎ изобраТСния, PDF (Ρ‡Π΅Ρ€Π΅Π· ΠΊΠΎΠ½Π²Π΅Ρ€Ρ‚Π°Ρ†ΠΈΡŽ) ΠΈ Π½Π°Ρ€Π΅Π·Π°Π½Π½ΠΎΠ΅ Π½Π° Ρ‡Π°Π½ΠΊΠΈ Π²ΠΈΠ΄Π΅ΠΎ. Код Ρ‚Ρ€Π΅ΠΉΠ½Π° самого VimRAG ΠΎΠ±Π΅Ρ‰Π°ΡŽΡ‚ Π²Ρ‹Π»ΠΎΠΆΠΈΡ‚ΡŒ послС Π²Π½ΡƒΡ‚Ρ€Π΅Π½Π½Π΅Π³ΠΎ Ρ€Π΅Π²ΡŒΡŽ Alibaba. 🟑Arxiv 🟑МодСль πŸ–₯GitHub @ai_machinelearning_big_data #AI#ML#RAG#VRAG#TongyiLab