← Machinelearning
Machinelearning avatar

TGINSIGHT POST

Post #7942

@ai_machinelearning_big_data

Machinelearning

ΠŸΡ€ΠΎΡΠΌΠΎΡ‚Ρ€Ρ‹23,400ΠšΠΎΠ»ΠΈΡ‡Π΅ΡΡ‚Π²ΠΎ просмотров
ΠžΠΏΡƒΠ±Π»ΠΈΠΊΠΎΠ²Π°Π½2 июл.02.07.2025, 09:01
Π‘ΠΎΠ΄Π΅Ρ€ΠΆΠΈΠΌΠΎΠ΅ поста

Π‘ΠΎΠ΄Π΅Ρ€ΠΆΠΈΠΌΠΎΠ΅

🌟 FlexTok: адаптивная 1D-токСнизация ΠΈΠ·ΠΎΠ±Ρ€Π°ΠΆΠ΅Π½ΠΈΠΉ ΠΎΡ‚ Apple. FlexTok - ΠΌΠ΅Ρ‚ΠΎΠ΄ Ρ‚ΠΎΠΊΠ΅Π½ΠΈΠ·Π°Ρ†ΠΈΠΈ ΠΈΠ·ΠΎΠ±Ρ€Π°ΠΆΠ΅Π½ΠΈΠΉ, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ ΠΏΡ€Π΅ΠΎΠ±Ρ€Π°Π·ΡƒΠ΅Ρ‚ 2D-изобраТСния Π² упорядочСнныС 1D-ΠΏΠΎΡΠ»Π΅Π΄ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ ΠΏΠ΅Ρ€Π΅ΠΌΠ΅Π½Π½ΠΎΠΉ Π΄Π»ΠΈΠ½Ρ‹. Π•Π³ΠΎ Ρ†Π΅Π»ΡŒ - ΡΠΎΠΊΡ€Π°Ρ‚ΠΈΡ‚ΡŒ объСм Π΄Π°Π½Π½Ρ‹Ρ…, Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΡ‹Ρ… для обучСния Π³Π΅Π½Π΅Ρ€Π°Ρ‚ΠΈΠ²Π½Ρ‹Ρ… ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ, ΠΈ ΠΏΡ€ΠΈ этом ΠΎΡΡ‚Π°Π²ΠΈΡ‚ΡŒ Π΄ΠΎΡΡ‚Π°Ρ‚ΠΎΡ‡Π½ΡƒΡŽ ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΡŽ для качСствСнной рСконструкции ΠΈ Π³Π΅Π½Π΅Ρ€Π°Ρ†ΠΈΠΈ. Π’ ΠΎΡ‚Π»ΠΈΡ‡ΠΈΠ΅ ΠΎΡ‚ Ρ‚Ρ€Π°Π΄ΠΈΡ†ΠΈΠΎΠ½Π½Ρ‹Ρ… ΠΏΠΎΠ΄Ρ…ΠΎΠ΄ΠΎΠ², Π³Π΄Π΅ число Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ² фиксировано ΠΈ зависит Ρ‚ΠΎΠ»ΡŒΠΊΠΎ ΠΎΡ‚ Ρ€Π°Π·ΠΌΠ΅Ρ€Π° изобраТСния, FlexTok подстраиваСтся ΠΏΠΎΠ΄ ΡΠ»ΠΎΠΆΠ½ΠΎΡΡ‚ΡŒ ΠΊΠΎΠ½Ρ‚Π΅Π½Ρ‚Π°: ΠΏΡ€ΠΎΡΡ‚Π΅ΠΉΡˆΠ°Ρ сцСна ΠΌΠΎΠΆΠ΅Ρ‚ ΠΊΠΎΠ΄ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒΡΡ нСсколькими Ρ‚ΠΎΠΊΠ΅Π½Π°ΠΌΠΈ, Π° слоТная - дСсятками ΠΈ сотнями . FlexTok, это ΠΏΠΎ сути, ΠΏΠ°ΠΉΠΏΠ»Π°ΠΉΠ½ ΠΈΠ· 3 ΠΊΠΎΠΌΠΏΠΎΠ½Π΅Π½Ρ‚ΠΎΠ²: ViT‑энкодСр, ΠΊΠ²Π°Π½Ρ‚ΠΎΠ²Π°Π½ΠΈΠ΅ рСгистров ΠΈ маскированиС внимания: ViT‑энкодСр с Π½Π°Π±ΠΎΡ€ΠΎΠΌ «рСгистровых» Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ² Ρ‡ΠΈΡ‚Π°Π΅Ρ‚ Π»Π°Ρ‚Π΅Π½Ρ‚Π½Ρ‹Π΅ прСдставлСния VAE‑GAN ΠΈ кондСнсируСт ΠΈΡ… Π² 1D-ΠΏΠΎΡΠ»Π΅Π΄ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΡŒ Π΄ΠΎ 256 рСгистров . Π—Π°Ρ‚Π΅ΠΌ, с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ FSQ‑квантования, ΠΊΠ°ΠΆΠ΄Ρ‹ΠΉ рСгистр дискрСтизируСтся Π² ΠΊΠΎΠ΄ ΠΈΠ· Π·Π°Ρ€Π°Π½Π΅Π΅ ΠΎΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½Π½ΠΎΠ³ΠΎ словаря Ρ€Π°Π·ΠΌΠ΅Ρ€ΠΎΠΌ ~64 000. На этом этапС примСняСтся "nested dropout": Π²ΠΎ врСмя обучСния случайно ΠΎΠ±Ρ€Π΅Π·Π°ΡŽΡ‚ΡΡ послСдниС Ρ‚ΠΎΠΊΠ΅Π½Ρ‹, Ρ‡Ρ‚ΠΎΠ±Ρ‹ модСль Π½Π°ΡƒΡ‡ΠΈΠ»Π°ΡΡŒ ΡƒΠΏΠΎΡ€ΡΠ΄ΠΎΡ‡ΠΈΠ²Π°Ρ‚ΡŒ ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΡŽ ΠΎΡ‚ Π³Ρ€ΡƒΠ±Ρ‹Ρ… Ρ„ΠΎΡ€ΠΌ ΠΊ дСталям. ΠŸΠ°Ρ€Π°Π»Π»Π΅Π»ΡŒΠ½ΠΎ примСняСтся авторСгрСссионная маска внимания: ΠΊΠ°ΠΆΠ΄Ρ‹ΠΉ Ρ‚ΠΎΠΊΠ΅Π½ Π² Ρ†Π΅ΠΏΠΎΡ‡ΠΊΠ΅ Π²ΠΈΠ΄ΠΈΡ‚ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ Ρ‚Π΅, Ρ‡Ρ‚ΠΎ Π±Ρ‹Π»ΠΈ Π΄ΠΎ Π½Π΅Π³ΠΎ, ΠΈ Π½Π΅ Π·Π½Π°Π΅Ρ‚ ΠΎ Ρ‚Π΅Ρ…, Ρ‡Ρ‚ΠΎ ΠΈΠ΄ΡƒΡ‚ послС. Π­Ρ‚ΠΎ заставляСт модСль Π³Π΅Π½Π΅Ρ€ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ изобраТСния шаг Π·Π° шагом, ΠΎΡ‚ ΠΏΠ΅Ρ€Π²ΠΎΠ³ΠΎ Ρ‚ΠΎΠΊΠ΅Π½Π° ΠΊ послСднСму, ΠΈ ΡƒΠΏΡ€ΠΎΡ‰Π°Π΅Ρ‚ Π΅ΠΉ Π·Π°Π΄Π°Ρ‡Ρƒ прогнозирования ΡΠ»Π΅Π΄ΡƒΡŽΡ‰ΠΈΡ… элСмСнтов. Π”Π΅ΠΊΠΎΠ΄Π΅Ρ€ Π² FlexTok - это модСль rectified flow, которая Π½Π° Π²Ρ…ΠΎΠ΄ Π±Π΅Ρ€Π΅Ρ‚ ΡƒΠΊΠΎΡ€ΠΎΡ‡Π΅Π½Π½Ρ‹Π΅ Ρ‚ΠΎΠΊΠ΅Π½Ρ‹ ΠΈ слСгка Π·Π°ΡˆΡƒΠΌΠ»Π΅Π½Π½Ρ‹Π΅ Π»Π°Ρ‚Π΅Π½Ρ‚Ρ‹ VAE ΠΈ учится ΠΏΡ€Π΅Π΄ΡΠΊΠ°Π·Ρ‹Π²Π°Ρ‚ΡŒ Ρ‚ΠΎΡ‚ ΡˆΡƒΠΌ, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ Π½ΡƒΠΆΠ½ΠΎ ΡƒΠ±Ρ€Π°Ρ‚ΡŒ, Ρ‡Ρ‚ΠΎΠ±Ρ‹ Π²Π΅Ρ€Π½ΡƒΡ‚ΡŒ исходноС прСдставлСниС. Π§Ρ‚ΠΎΠ±Ρ‹ ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅ шло быстрСС ΠΈ Π΄Π°Π²Π°Π»ΠΎ Π±ΠΎΠ»Π΅Π΅ Ρ‚ΠΎΡ‡Π½Ρ‹Π΅ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Ρ‹, Π΄ΠΎΠ±Π°Π²Π»ΡΡŽΡ‚ REPA‑Loss: ΠΎΠ½ сравниваСт ΠΏΡ€ΠΎΠΌΠ΅ΠΆΡƒΡ‚ΠΎΡ‡Π½Ρ‹Π΅ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΈ с Π²Π΅ΠΊΡ‚ΠΎΡ€Π°ΠΌΠΈ ΠΈΠ· DINOv2‑L. Благодаря этому Π΄Π°ΠΆΠ΅ ΠΏΡ€ΠΈ ΠΎΡ‡Π΅Π½ΡŒ ТСсткой компрСссии (ΠΎΡ‚ 1 Π΄ΠΎ 256 Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ²), FlexTok ΡƒΡΠΏΠ΅ΡˆΠ½ΠΎ восстанавливаСт Π΄Π΅Ρ‚Π°Π»ΠΈ изобраТСния. FlexTok Π»Π΅Π³ΠΊΠΎ встраиваСтся Π² тСкстово‑ориСнтированныС ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΈ ΠΌΠΎΠΆΠ΅Ρ‚ ΡƒΠ»ΡƒΡ‡ΡˆΠΈΡ‚ΡŒ соотвСтствиС изобраТСния описанию, Π΄Π°ΠΆΠ΅ Ссли число Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ² мСняСтся. К Ρ‚ΠΎΠΌΡƒ ΠΆΠ΅ Π΅Π³ΠΎ адаптивная токСнизация ΠΏΡ€ΠΈΠΌΠ΅Π½ΠΈΠΌΠ° Π½Π΅ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ ΠΊ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ°ΠΌ, Π½ΠΎ ΠΈ ΠΊ Π°ΡƒΠ΄ΠΈΠΎ ΠΈΠ»ΠΈ Π²ΠΈΠ΄Π΅ΠΎ. ▢️Набор Ρ‚ΠΎΠΊΠ΅Π½ΠΈΠ·Π°Ρ‚ΠΎΡ€ΠΎΠ²: 🟒Flextok_d12_d12_in1k - 12\12 слоСв энкодСр-Π΄Π΅ΠΊΠΎΠ΄Π΅Ρ€, датасСт IN1K; 🟒Flextok_d18_d18_in1k - 18\18 слоСв энкодСр-Π΄Π΅ΠΊΠΎΠ΄Π΅Ρ€, датасСт IN1K; 🟒Flextok_d18_d28_in1k - 18\28 слоСв энкодСр-Π΄Π΅ΠΊΠΎΠ΄Π΅Ρ€, датасСт IN1K; 🟒Flextok_d18_d28_dfm - 18\28 слоСв энкодСр-Π΄Π΅ΠΊΠΎΠ΄Π΅Ρ€, датасСт DFN. ▢️VAE: 🟠Flextok_vae_c4 - 4 ΠΊΠ°Π½Π°Π»ΠΎΠ² Π»Π°Ρ‚Π΅Π½Ρ‚Π°, коэффициСнт ΠΏΠΎΠ½ΠΈΠΆΠ°ΡŽΡ‰Π΅ΠΉ дискрСтизации 8; 🟠Flextok_vae_c8 - 8 ΠΊΠ°Π½Π°Π»ΠΎΠ² Π»Π°Ρ‚Π΅Π½Ρ‚Π°, коэффициСнт ΠΏΠΎΠ½ΠΈΠΆΠ°ΡŽΡ‰Π΅ΠΉ дискрСтизации 8; 🟠Flextok_vae_c16 - 16 ΠΊΠ°Π½Π°Π»ΠΎΠ² Π»Π°Ρ‚Π΅Π½Ρ‚Π°, коэффициСнт ΠΏΠΎΠ½ΠΈΠΆΠ°ΡŽΡ‰Π΅ΠΉ дискрСтизации 8. πŸŸ‘Π‘Ρ‚Ρ€Π°Π½ΠΈΡ†Π° ΠΏΡ€ΠΎΠ΅ΠΊΡ‚Π° πŸŸ‘ΠΠ°Π±ΠΎΡ€ Π½Π° HF 🟑Arxiv 🟑Demo πŸ–₯GitHub @ai_machinelearning_big_data #AI#ML#Tokenizer#Flextok#Apple