← Machinelearning
Machinelearning avatar

TGINSIGHT POST

Post #8152

@ai_machinelearning_big_data

Machinelearning

ΠŸΡ€ΠΎΡΠΌΠΎΡ‚Ρ€Ρ‹22,600ΠšΠΎΠ»ΠΈΡ‡Π΅ΡΡ‚Π²ΠΎ просмотров
ΠžΠΏΡƒΠ±Π»ΠΈΠΊΠΎΠ²Π°Π½28 июл.28.07.2025, 12:40
Π‘ΠΎΠ΄Π΅Ρ€ΠΆΠΈΠΌΠΎΠ΅ поста

Π‘ΠΎΠ΄Π΅Ρ€ΠΆΠΈΠΌΠΎΠ΅

πŸ–₯Как Π²Ρ‹ΠΆΠ°Ρ‚ΡŒ максимум ΠΈΠ· малСнькой LLM? ΠžΡ‚Π²Π΅Ρ‚ β€” Π΄ΠΎΠ»Π³ΠΎ ΠΈ Π³Ρ€Π°ΠΌΠΎΡ‚Π½ΠΎ ΡƒΡ‡ΠΈΡ‚ΡŒ. NVIDIA ΠΏΠΎΠΊΠ°Π·Π°Π»Π°, ΠΊΠ°ΠΊ 1.5B-модСль ΠΌΠΎΠΆΠ½ΠΎ Ρ€Π°ΡΠΊΠ°Ρ‡Π°Ρ‚ΡŒ Π΄ΠΎ Ρ‚ΠΎΠΏΠΎΠ²Ρ‹Ρ… Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚ΠΎΠ² Π² Π»ΠΎΠ³ΠΈΠΊΠ΅, ΠΌΠ°Ρ‚Π΅ΠΌΠ°Ρ‚ΠΈΠΊΠ΅, ΠΊΠΎΠ΄Ρƒ ΠΈ STEM-Π·Π°Π΄Π°Ρ‡Π°ΠΌ β€” Π±Π΅Π· увСличСния ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ² ΠΌΠΎΠ΄Π΅Π»ΠΈ. πŸ“ˆ Π Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚ послС мСсяцСв обучСния: +55% ΠΊ логичСским Π·Π°Π΄Π°Ρ‡Π°ΠΌ +14.7% ΠΊ ΠΌΠ°Ρ‚Π΅ΠΌΠ°Ρ‚ΠΈΠΊΠ΅ +13.9% ΠΊ ΠΊΠΎΠ΄Ρƒ +25.1% ΠΊ слоТным STEM-вопросам πŸ›  Как ΠΎΠ½ΠΈ это сдСлали: – Использовали RL (ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅ с ΠΏΠΎΠ΄ΠΊΡ€Π΅ΠΏΠ»Π΅Π½ΠΈΠ΅ΠΌ) Π½Π° 5 Ρ‚ΠΈΠΏΠ°Ρ… Π·Π°Π΄Π°Ρ‡, Π²ΠΊΠ»ΡŽΡ‡Π°Ρ 40K ΠΏΡ€ΠΈΠΌΠ΅Ρ€ΠΎΠ² ΠΏΠΎ ΠΌΠ°Ρ‚Π΅ΠΌΠ°Ρ‚ΠΈΠΊΠ΅ ΠΈ 24K ΠΏΠΎ ΠΏΡ€ΠΎΠ³Ρ€Π°ΠΌΠΌΠΈΡ€ΠΎΠ²Π°Π½ΠΈΡŽ – ВсС ΠΎΡ‚Π²Π΅Ρ‚Ρ‹ ΠΏΡ€ΠΎΠ²Π΅Ρ€ΡΠ»ΠΈΡΡŒ автоматичСски Π² "пСсочницС", которая ΠΎΡ†Π΅Π½ΠΈΠ²Π°Π΅Ρ‚, ΠΏΡ€Π°Π²ΠΈΠ»ΡŒΠ½Ρ‹ΠΉ Π»ΠΈ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚ – ΠŸΡ€ΠΈΠΌΠ΅Π½ΠΈΠ»ΠΈ ΡƒΠ»ΡƒΡ‡ΡˆΠ΅Π½Π½ΡƒΡŽ ΡΡ‚Ρ€Π°Ρ‚Π΅Π³ΠΈΡŽ обучСния β€” *Group Relative Policy Optimization* β€” ΠΈ Π΄ΠΎΠ±Π°Π²ΠΈΠ»ΠΈ нСсколько Ρ…ΠΈΡ‚Ρ€Ρ‹Ρ… Ρ‚Ρ€ΡŽΠΊΠΎΠ²: 🟒Decoupled clipping β€” ΠΎΠ±Ρ‹Ρ‡Π½ΠΎ модСль "ΠΎΠ±Ρ€Π΅Π·Π°Π΅Ρ‚" Ρ€Π΅Π΄ΠΊΠΈΠ΅ ΠΈ Π½Π΅ΠΎΠΆΠΈΠ΄Π°Π½Π½Ρ‹Π΅ Ρ‚ΠΎΠΊΠ΅Π½Ρ‹, Ρ‡Ρ‚ΠΎΠ±Ρ‹ Π½Π΅ ΡƒΡ…ΠΎΠ΄ΠΈΡ‚ΡŒ слишком Π² сторону ΠΎΡ‚ Π³Π»Π°Π²Π½ΠΎΠ³ΠΎ. Но здСсь этот ΠΌΠ΅Ρ…Π°Π½ΠΈΠ·ΠΌ ослаблСн: модСль ΠΌΠΎΠΆΠ΅Ρ‚ Ρ‡Π°Ρ‰Π΅ Π²Ρ‹Π±ΠΈΡ€Π°Ρ‚ΡŒ нСстандартныС слова, Ρ‡Ρ‚ΠΎ ΠΏΠΎΠΌΠΎΠ³Π°Π΅Ρ‚ Π΅ΠΉ Π½Π°Ρ…ΠΎΠ΄ΠΈΡ‚ΡŒ Π½Π΅ΠΎΠΆΠΈΠ΄Π°Π½Π½Ρ‹Π΅, Π½ΠΎ ΠΏΡ€Π°Π²ΠΈΠ»ΡŒΠ½Ρ‹Π΅ Ρ€Π΅ΡˆΠ΅Π½ΠΈΡ. 🟒Dynamic sampling β€” модСль *Π½Π΅ Ρ‚Ρ€Π°Ρ‚ΠΈΡ‚ врСмя* Π½Π° лишком Π»Ρ‘Π³ΠΊΠΈΠ΅ Π·Π°Π΄Π°Ρ‡ΠΈ. Она пропускаСт Ρ‚Π°ΠΊΠΈΠ΅ ΠΏΡ€ΠΈΠΌΠ΅Ρ€Ρ‹ ΠΈ фокусируСтся Π½Π° Ρ‚Π΅Ρ…, Π³Π΄Π΅ Π΄Π΅ΠΉΡΡ‚Π²ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ ΠΌΠΎΠΆΠ½ΠΎ Ρ‡Π΅ΠΌΡƒ-Ρ‚ΠΎ Π½Π°ΡƒΡ‡ΠΈΡ‚ΡŒΡΡ. 🟒МалСнький KL-ΡˆΡ‚Ρ€Π°Ρ„ (0.0001) β€” KL ΠΏΠΎΠΊΠ°Π·Ρ‹Π²Π°Π΅Ρ‚, насколько ΠΏΠΎΠ²Π΅Π΄Π΅Π½ΠΈΠ΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ отклоняСтся ΠΎΡ‚ старой вСрсии (эталона). Π—Π΄Π΅ΡΡŒ ΡˆΡ‚Ρ€Π°Ρ„ ΠΏΠΎΡ‡Ρ‚ΠΈ Π½ΡƒΠ»Π΅Π²ΠΎΠΉ, Ρ‡Ρ‚ΠΎΠ±Ρ‹ Π½Π΅ ΠΌΠ΅ΡˆΠ°Ρ‚ΡŒ экспСримСнтам, Π½ΠΎ всё Π΅Ρ‰Ρ‘ ΠΏΡ€Π΅Π΄ΠΎΡ‚Π²Ρ€Π°Ρ‰Π°Ρ‚ΡŒ ΠΏΠΎΠ»Π½ΠΎΠ΅ "ΡΡƒΠΌΠ°ΡΡˆΠ΅ΡΡ‚Π²ΠΈΠ΅" ΠΌΠΎΠ΄Π΅Π»ΠΈ. πŸŸ’Π‘Π±Ρ€ΠΎΡ ΠΊΠ°ΠΆΠ΄Ρ‹Π΅ 400 шагов β€” модСль рСгулярно сбрасываСт ΠΈ policy (ΠΏΠΎΠ²Π΅Π΄Π΅Π½ΠΈΠ΅), ΠΈ ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·Π°Ρ‚ΠΎΡ€. Π­Ρ‚ΠΎ ΠΊΠ°ΠΊ рСгулярная ΠΏΠ΅Ρ€Π΅Π·Π°Π³Ρ€ΡƒΠ·ΠΊΠ° β€” модСль Π·Π°Π±Ρ‹Π²Π°Π΅Ρ‚ Π²Ρ€Π΅Π΄Π½Ρ‹Π΅ ΠΏΡ€ΠΈΠ²Ρ‹Ρ‡ΠΊΠΈ, Π½ΠΎ сохраняСт ΠΏΠΎΠ»Π΅Π·Π½Ρ‹Π΅ Π½Π°Π²Ρ‹ΠΊΠΈ. πŸŸ’Π’Π΅ΠΌΠΏΠ΅Ρ€Π°Ρ‚ΡƒΡ€Π° 1.2 ΠΈ Π΄Π»ΠΈΠ½Π½Ρ‹ΠΉ контСкст (8K β†’ 16K) β€” высокая Ρ‚Π΅ΠΌΠΏΠ΅Ρ€Π°Ρ‚ΡƒΡ€Π° Π΄Π΅Π»Π°Π΅Ρ‚ ΠΏΠΎΠ²Π΅Π΄Π΅Π½ΠΈΠ΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ Π±ΠΎΠ»Π΅Π΅ Ρ€Π°Π·Π½ΠΎΠΎΠ±Ρ€Π°Π·Π½Ρ‹ΠΌ. А Π΄Π»ΠΈΠ½Π½Ρ‹ΠΉ контСкст ΠΏΠΎΠΌΠΎΠ³Π°Π΅Ρ‚ ΡƒΡ‡ΠΈΡ‚Ρ‹Π²Π°Ρ‚ΡŒ большС ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΈ ΠΏΡ€ΠΈ Π³Π΅Π½Π΅Ρ€Π°Ρ†ΠΈΠΈ ΠΎΡ‚Π²Π΅Ρ‚Π°. ВсС эти ΠΏΡ€ΠΈΡ‘ΠΌΡ‹ ΠΏΠΎΠΌΠΎΠ³Π»ΠΈ ΡΠΎΡ…Ρ€Π°Π½ΠΈΡ‚ΡŒ интСрСс ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΊ поиску Π½ΠΎΠ²Ρ‹Ρ… Ρ€Π΅ΡˆΠ΅Π½ΠΈΠΉ, Π° Π½Π΅ ΡΠΊΠ°Ρ‚Ρ‹Π²Π°Ρ‚ΡŒΡΡ ΠΊ Π·Π°ΡƒΡ‡Π΅Π½Π½Ρ‹ΠΌ ΠΏΠ°Ρ‚Ρ‚Π΅Ρ€Π½Π°ΠΌ. Π˜Ρ‚ΠΎΠ³: модСль Π½Π΅ "застываСт", Π° ΠΏΡ€ΠΎΠ΄ΠΎΠ»ΠΆΠ°Π΅Ρ‚ ΠΈΡΡΠ»Π΅Π΄ΠΎΠ²Π°Ρ‚ΡŒ β€” ΠΈ Π²Ρ‹Π΄Π°Π΅Ρ‚ ΡΡ‚Π°Π±ΠΈΠ»ΡŒΠ½Ρ‹ΠΉ рост качСства Π±Π΅Π· Ρ€Π°ΡΡˆΠΈΡ€Π΅Π½ΠΈΡ Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€Ρ‹. πŸ“„ ΠŸΠΎΡ‡ΠΈΡ‚Π°Ρ‚ΡŒ ΡΡ‚Π°Ρ‚ΡŒΡŽ ΠΏΠΎΠ»Π½ΠΎΡΡ‚ΡŒΡŽ : arxiv.org/abs/2507.12507 @ai_machinelearning_big_data #ml#ai#nvidia