Π‘ΠΎΠ΄Π΅ΡΠΆΠΈΠΌΠΎΠ΅
π₯ΠΠ°ΠΊ Π²ΡΠΆΠ°ΡΡ ΠΌΠ°ΠΊΡΠΈΠΌΡΠΌ ΠΈΠ· ΠΌΠ°Π»Π΅Π½ΡΠΊΠΎΠΉ LLM? ΠΡΠ²Π΅Ρ β Π΄ΠΎΠ»Π³ΠΎ ΠΈ Π³ΡΠ°ΠΌΠΎΡΠ½ΠΎ ΡΡΠΈΡΡ. NVIDIA ΠΏΠΎΠΊΠ°Π·Π°Π»Π°, ΠΊΠ°ΠΊ 1.5B-ΠΌΠΎΠ΄Π΅Π»Ρ ΠΌΠΎΠΆΠ½ΠΎ ΡΠ°ΡΠΊΠ°ΡΠ°ΡΡ Π΄ΠΎ ΡΠΎΠΏΠΎΠ²ΡΡ ΡΠ΅Π·ΡΠ»ΡΡΠ°ΡΠΎΠ² Π² Π»ΠΎΠ³ΠΈΠΊΠ΅, ΠΌΠ°ΡΠ΅ΠΌΠ°ΡΠΈΠΊΠ΅, ΠΊΠΎΠ΄Ρ ΠΈ STEM-Π·Π°Π΄Π°ΡΠ°ΠΌ β Π±Π΅Π· ΡΠ²Π΅Π»ΠΈΡΠ΅Π½ΠΈΡ ΠΏΠ°ΡΠ°ΠΌΠ΅ΡΡΠΎΠ² ΠΌΠΎΠ΄Π΅Π»ΠΈ. π Π Π΅Π·ΡΠ»ΡΡΠ°Ρ ΠΏΠΎΡΠ»Π΅ ΠΌΠ΅ΡΡΡΠ΅Π² ΠΎΠ±ΡΡΠ΅Π½ΠΈΡ: +55% ΠΊ Π»ΠΎΠ³ΠΈΡΠ΅ΡΠΊΠΈΠΌ Π·Π°Π΄Π°ΡΠ°ΠΌ +14.7% ΠΊ ΠΌΠ°ΡΠ΅ΠΌΠ°ΡΠΈΠΊΠ΅ +13.9% ΠΊ ΠΊΠΎΠ΄Ρ +25.1% ΠΊ ΡΠ»ΠΎΠΆΠ½ΡΠΌ STEM-Π²ΠΎΠΏΡΠΎΡΠ°ΠΌ π ΠΠ°ΠΊ ΠΎΠ½ΠΈ ΡΡΠΎ ΡΠ΄Π΅Π»Π°Π»ΠΈ: β ΠΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°Π»ΠΈ RL (ΠΎΠ±ΡΡΠ΅Π½ΠΈΠ΅ Ρ ΠΏΠΎΠ΄ΠΊΡΠ΅ΠΏΠ»Π΅Π½ΠΈΠ΅ΠΌ) Π½Π° 5 ΡΠΈΠΏΠ°Ρ Π·Π°Π΄Π°Ρ, Π²ΠΊΠ»ΡΡΠ°Ρ 40K ΠΏΡΠΈΠΌΠ΅ΡΠΎΠ² ΠΏΠΎ ΠΌΠ°ΡΠ΅ΠΌΠ°ΡΠΈΠΊΠ΅ ΠΈ 24K ΠΏΠΎ ΠΏΡΠΎΠ³ΡΠ°ΠΌΠΌΠΈΡΠΎΠ²Π°Π½ΠΈΡ β ΠΡΠ΅ ΠΎΡΠ²Π΅ΡΡ ΠΏΡΠΎΠ²Π΅ΡΡΠ»ΠΈΡΡ Π°Π²ΡΠΎΠΌΠ°ΡΠΈΡΠ΅ΡΠΊΠΈ Π² "ΠΏΠ΅ΡΠΎΡΠ½ΠΈΡΠ΅", ΠΊΠΎΡΠΎΡΠ°Ρ ΠΎΡΠ΅Π½ΠΈΠ²Π°Π΅Ρ, ΠΏΡΠ°Π²ΠΈΠ»ΡΠ½ΡΠΉ Π»ΠΈ ΡΠ΅Π·ΡΠ»ΡΡΠ°Ρ β ΠΡΠΈΠΌΠ΅Π½ΠΈΠ»ΠΈ ΡΠ»ΡΡΡΠ΅Π½Π½ΡΡ ΡΡΡΠ°ΡΠ΅Π³ΠΈΡ ΠΎΠ±ΡΡΠ΅Π½ΠΈΡ β *Group Relative Policy Optimization* β ΠΈ Π΄ΠΎΠ±Π°Π²ΠΈΠ»ΠΈ Π½Π΅ΡΠΊΠΎΠ»ΡΠΊΠΎ Ρ ΠΈΡΡΡΡ ΡΡΡΠΊΠΎΠ²: π’Decoupled clipping β ΠΎΠ±ΡΡΠ½ΠΎ ΠΌΠΎΠ΄Π΅Π»Ρ "ΠΎΠ±ΡΠ΅Π·Π°Π΅Ρ" ΡΠ΅Π΄ΠΊΠΈΠ΅ ΠΈ Π½Π΅ΠΎΠΆΠΈΠ΄Π°Π½Π½ΡΠ΅ ΡΠΎΠΊΠ΅Π½Ρ, ΡΡΠΎΠ±Ρ Π½Π΅ ΡΡ ΠΎΠ΄ΠΈΡΡ ΡΠ»ΠΈΡΠΊΠΎΠΌ Π² ΡΡΠΎΡΠΎΠ½Ρ ΠΎΡ Π³Π»Π°Π²Π½ΠΎΠ³ΠΎ. ΠΠΎ Π·Π΄Π΅ΡΡ ΡΡΠΎΡ ΠΌΠ΅Ρ Π°Π½ΠΈΠ·ΠΌ ΠΎΡΠ»Π°Π±Π»Π΅Π½: ΠΌΠΎΠ΄Π΅Π»Ρ ΠΌΠΎΠΆΠ΅Ρ ΡΠ°ΡΠ΅ Π²ΡΠ±ΠΈΡΠ°ΡΡ Π½Π΅ΡΡΠ°Π½Π΄Π°ΡΡΠ½ΡΠ΅ ΡΠ»ΠΎΠ²Π°, ΡΡΠΎ ΠΏΠΎΠΌΠΎΠ³Π°Π΅Ρ Π΅ΠΉ Π½Π°Ρ ΠΎΠ΄ΠΈΡΡ Π½Π΅ΠΎΠΆΠΈΠ΄Π°Π½Π½ΡΠ΅, Π½ΠΎ ΠΏΡΠ°Π²ΠΈΠ»ΡΠ½ΡΠ΅ ΡΠ΅ΡΠ΅Π½ΠΈΡ. π’Dynamic sampling β ΠΌΠΎΠ΄Π΅Π»Ρ *Π½Π΅ ΡΡΠ°ΡΠΈΡ Π²ΡΠ΅ΠΌΡ* Π½Π° Π»ΠΈΡΠΊΠΎΠΌ Π»ΡΠ³ΠΊΠΈΠ΅ Π·Π°Π΄Π°ΡΠΈ. ΠΠ½Π° ΠΏΡΠΎΠΏΡΡΠΊΠ°Π΅Ρ ΡΠ°ΠΊΠΈΠ΅ ΠΏΡΠΈΠΌΠ΅ΡΡ ΠΈ ΡΠΎΠΊΡΡΠΈΡΡΠ΅ΡΡΡ Π½Π° ΡΠ΅Ρ , Π³Π΄Π΅ Π΄Π΅ΠΉΡΡΠ²ΠΈΡΠ΅Π»ΡΠ½ΠΎ ΠΌΠΎΠΆΠ½ΠΎ ΡΠ΅ΠΌΡ-ΡΠΎ Π½Π°ΡΡΠΈΡΡΡΡ. π’ΠΠ°Π»Π΅Π½ΡΠΊΠΈΠΉ KL-ΡΡΡΠ°Ρ (0.0001) β KL ΠΏΠΎΠΊΠ°Π·ΡΠ²Π°Π΅Ρ, Π½Π°ΡΠΊΠΎΠ»ΡΠΊΠΎ ΠΏΠΎΠ²Π΅Π΄Π΅Π½ΠΈΠ΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΎΡΠΊΠ»ΠΎΠ½ΡΠ΅ΡΡΡ ΠΎΡ ΡΡΠ°ΡΠΎΠΉ Π²Π΅ΡΡΠΈΠΈ (ΡΡΠ°Π»ΠΎΠ½Π°). ΠΠ΄Π΅ΡΡ ΡΡΡΠ°Ρ ΠΏΠΎΡΡΠΈ Π½ΡΠ»Π΅Π²ΠΎΠΉ, ΡΡΠΎΠ±Ρ Π½Π΅ ΠΌΠ΅ΡΠ°ΡΡ ΡΠΊΡΠΏΠ΅ΡΠΈΠΌΠ΅Π½ΡΠ°ΠΌ, Π½ΠΎ Π²ΡΡ Π΅ΡΡ ΠΏΡΠ΅Π΄ΠΎΡΠ²ΡΠ°ΡΠ°ΡΡ ΠΏΠΎΠ»Π½ΠΎΠ΅ "ΡΡΠΌΠ°ΡΡΠ΅ΡΡΠ²ΠΈΠ΅" ΠΌΠΎΠ΄Π΅Π»ΠΈ. π’Π‘Π±ΡΠΎΡ ΠΊΠ°ΠΆΠ΄ΡΠ΅ 400 ΡΠ°Π³ΠΎΠ² β ΠΌΠΎΠ΄Π΅Π»Ρ ΡΠ΅Π³ΡΠ»ΡΡΠ½ΠΎ ΡΠ±ΡΠ°ΡΡΠ²Π°Π΅Ρ ΠΈ policy (ΠΏΠΎΠ²Π΅Π΄Π΅Π½ΠΈΠ΅), ΠΈ ΠΎΠΏΡΠΈΠΌΠΈΠ·Π°ΡΠΎΡ. ΠΡΠΎ ΠΊΠ°ΠΊ ΡΠ΅Π³ΡΠ»ΡΡΠ½Π°Ρ ΠΏΠ΅ΡΠ΅Π·Π°Π³ΡΡΠ·ΠΊΠ° β ΠΌΠΎΠ΄Π΅Π»Ρ Π·Π°Π±ΡΠ²Π°Π΅Ρ Π²ΡΠ΅Π΄Π½ΡΠ΅ ΠΏΡΠΈΠ²ΡΡΠΊΠΈ, Π½ΠΎ ΡΠΎΡ ΡΠ°Π½ΡΠ΅Ρ ΠΏΠΎΠ»Π΅Π·Π½ΡΠ΅ Π½Π°Π²ΡΠΊΠΈ. π’Π’Π΅ΠΌΠΏΠ΅ΡΠ°ΡΡΡΠ° 1.2 ΠΈ Π΄Π»ΠΈΠ½Π½ΡΠΉ ΠΊΠΎΠ½ΡΠ΅ΠΊΡΡ (8K β 16K) β Π²ΡΡΠΎΠΊΠ°Ρ ΡΠ΅ΠΌΠΏΠ΅ΡΠ°ΡΡΡΠ° Π΄Π΅Π»Π°Π΅Ρ ΠΏΠΎΠ²Π΅Π΄Π΅Π½ΠΈΠ΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ Π±ΠΎΠ»Π΅Π΅ ΡΠ°Π·Π½ΠΎΠΎΠ±ΡΠ°Π·Π½ΡΠΌ. Π Π΄Π»ΠΈΠ½Π½ΡΠΉ ΠΊΠΎΠ½ΡΠ΅ΠΊΡΡ ΠΏΠΎΠΌΠΎΠ³Π°Π΅Ρ ΡΡΠΈΡΡΠ²Π°ΡΡ Π±ΠΎΠ»ΡΡΠ΅ ΠΈΠ½ΡΠΎΡΠΌΠ°ΡΠΈΠΈ ΠΏΡΠΈ Π³Π΅Π½Π΅ΡΠ°ΡΠΈΠΈ ΠΎΡΠ²Π΅ΡΠ°. ΠΡΠ΅ ΡΡΠΈ ΠΏΡΠΈΡΠΌΡ ΠΏΠΎΠΌΠΎΠ³Π»ΠΈ ΡΠΎΡ ΡΠ°Π½ΠΈΡΡ ΠΈΠ½ΡΠ΅ΡΠ΅Ρ ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΊ ΠΏΠΎΠΈΡΠΊΡ Π½ΠΎΠ²ΡΡ ΡΠ΅ΡΠ΅Π½ΠΈΠΉ, Π° Π½Π΅ ΡΠΊΠ°ΡΡΠ²Π°ΡΡΡΡ ΠΊ Π·Π°ΡΡΠ΅Π½Π½ΡΠΌ ΠΏΠ°ΡΡΠ΅ΡΠ½Π°ΠΌ. ΠΡΠΎΠ³: ΠΌΠΎΠ΄Π΅Π»Ρ Π½Π΅ "Π·Π°ΡΡΡΠ²Π°Π΅Ρ", Π° ΠΏΡΠΎΠ΄ΠΎΠ»ΠΆΠ°Π΅Ρ ΠΈΡΡΠ»Π΅Π΄ΠΎΠ²Π°ΡΡ β ΠΈ Π²ΡΠ΄Π°Π΅Ρ ΡΡΠ°Π±ΠΈΠ»ΡΠ½ΡΠΉ ΡΠΎΡΡ ΠΊΠ°ΡΠ΅ΡΡΠ²Π° Π±Π΅Π· ΡΠ°ΡΡΠΈΡΠ΅Π½ΠΈΡ Π°ΡΡ ΠΈΡΠ΅ΠΊΡΡΡΡ. π ΠΠΎΡΠΈΡΠ°ΡΡ ΡΡΠ°ΡΡΡ ΠΏΠΎΠ»Π½ΠΎΡΡΡΡ : arxiv.org/abs/2507.12507 @ai_machinelearning_big_data #ml#ai#nvidia