Π‘ΠΎΠ΄Π΅ΡΠΆΠΈΠΌΠΎΠ΅
πTencent HPC-Ops: ΡΠ΅ΡΠ΅Π½ΠΈΠ΅, ΠΊΠΎΡΠΎΡΠΎΠ΅ Π²ΡΠΆΠΌΠ΅Ρ ΠΌΠ°ΠΊΡΠΈΠΌΡΠΌ ΠΈΠ· H100 ΠΈ H200. ΠΡΠΎΠ΄Π°ΠΊΡΠ΅Π½ Π±ΠΎΠ»ΡΡΠΈΡ ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ β ΡΡΡΠΊΠ° Π΄ΠΎΡΠΎΠ³Π°Ρ ΠΈ Π² ΡΠ°ΠΊΠΈΡ ΠΌΠ°ΡΡΡΠ°Π±Π°Ρ ΡΠ΅Π°Π»ΡΠ½ΠΎ Π±ΡΡΡΡΡ Π·Π° ΠΊΠ°ΠΆΠ΄ΡΠΉ ΠΏΡΠΎΡΠ΅Π½Ρ ΡΠΊΠΎΡΠΎΡΡΠΈ. Tencent Hunyuan AI Infra Π²ΡΠ»ΠΎΠΆΠΈΠ»Π° Π² ΠΎΡΠΊΡΡΡΡΠΉ Π΄ΠΎΡΡΡΠΏ HPC-Ops - ΡΠ°Π±ΠΎΡΡΡ Π±ΠΈΠ±Π»ΠΈΠΎΡΠ΅ΠΊΡ, Π½Π° ΠΊΠΎΡΠΎΡΠΎΠΉ, Π² ΡΠΎΠΌ ΡΠΈΡΠ»Π΅, ΠΊΡΡΡΠΈΡΡΡ ΠΈΡ ΡΠΎΠ±ΡΡΠ²Π΅Π½Π½Π°Ρ ΠΈΠ½ΡΡΠ°ΡΡΡΡΠΊΡΡΡΠ°. Π Π°Π·ΡΠ°Π±ΠΎΡΡΠΈΠΊΠΈ ΡΠ΅ΡΠΈΠ»ΠΈ Π½Π΅ Π»Π°ΡΠ°ΡΡ ΡΡΠ°ΡΠΎΠ΅, Π° ΠΏΠ΅ΡΠ΅ΠΏΠΈΡΠ°Π»ΠΈ Π²ΡΠ΅ Ρ Π½ΡΠ»Ρ Π½Π° ΡΠΈΡΡΠΎΠΉ CUDA ΠΈ CuTe ΡΠΏΠ΅ΡΠΈΠ°Π»ΡΠ½ΠΎ ΠΏΠΎΠ΄ Π°ΡΡ ΠΈΡΠ΅ΠΊΡΡΡΡ Hopper. Π ΡΡΠΎ Π»ΠΎΠ³ΠΈΡΠ½ΠΎ: ΠΏΠΎΠΏΡΠ»ΡΡΠ½ΡΠ΅ ΡΠ΅ΡΠ΅Π½ΠΈΡ Π²ΡΠΎΠ΄Π΅ vLLM ΠΈΠ»ΠΈ Π΄Π΅ΡΠΎΠ»ΡΠ½ΠΎΠ³ΠΎ FlashAttention ΡΠ°ΡΡΠΎ Π½Π΅ Π΄ΠΎ ΠΊΠΎΠ½ΡΠ° ΡΡΠΈΠ»ΠΈΠ·ΠΈΡΡΡΡ Π²ΠΎΠ·ΠΌΠΎΠΆΠ½ΠΎΡΡΠΈ ΠΆΠ΅Π»Π΅Π·Π°. Π HPC-Ops ΠΆΠ΅ ΡΠ΅Π»ΡΡ Π±ΡΠ»Π° ΠΌΠ°ΠΊΡΠΈΠΌΠ°Π»ΡΠ½Π°Ρ Π·Π°Π³ΡΡΠ·ΠΊΠ° GPU. ΠΠ½ΡΡΡΠΈ Π΅ΡΡΡ Π²ΡΠ΅, ΡΡΠΎ Π½ΡΠΆΠ½ΠΎ Π΄Π»Ρ ΡΠ±ΠΎΡΠΊΠΈ ΡΠ΅ΡΡΠ΅Π·Π½ΠΎΠ³ΠΎ ΠΈΠ½ΡΠ΅ΡΠ΅Π½ΡΠ°: ΠΎΠΏΡΠΈΠΌΠΈΠ·ΠΈΡΠΎΠ²Π°Π½Π½ΡΠ΅ ΡΠ΄ΡΠ° Π²Π½ΠΈΠΌΠ°Π½ΠΈΡ Ρ paged attention, ΠΊΠ²Π°Π½ΡΠΎΠ²Π°Π½Π½ΡΠΉ Grouped GEMM Ρ ΠΏΠΎΠ΄Π΄Π΅ΡΠΆΠΊΠΎΠΉ FP8 ΠΈ Π±Π»ΠΎΡΠ½ΡΠΌ ΡΠΊΠ΅ΠΉΠ»ΠΈΠ½Π³ΠΎΠΌ, Fused MoE ΠΈ ΠΈΠ½ΡΡΡΡΠΌΠ΅Π½ΡΡ ΡΠ²ΡΠ·ΠΈ Π½ΠΎΠ΄ Π΄Π»Ρ ΡΠ°ΡΠΏΡΠ΅Π΄Π΅Π»Π΅Π½Π½ΡΡ ΡΠΈΡΡΠ΅ΠΌ. ΠΠ° ΡΠ²ΠΎΠΈΡ ΠΌΠΎΠ΄Π΅Π»ΡΡ Ρ HPC-Ops Ρ Tencent ΠΏΡΠΎΠΏΡΡΠΊΠ½Π°Ρ ΡΠΏΠΎΡΠΎΠ±Π½ΠΎΡΡΡ Π²ΡΡΠΎΡΠ»Π° Π½Π° 30%, Π° Π΄Π»Ρ DeepSeek Π½Π° 17%. ΠΠΎ ΠΈΠ½ΡΠ΅ΡΠ΅ΡΠ½Π΅Π΅ Π²ΡΠ΅Π³ΠΎ Π΄Π΅Π»Π° ΠΎΠ±ΡΡΠΎΡΡ Ρ H20: ΡΠ°ΠΌ Π±ΠΈΠ±Π»ΠΈΠΎΡΠ΅ΠΊΠ° Π±ΡΡΡΠΈΡ ΡΡΠΊΠΎΡΠ΅Π½ΠΈΠ΅ Π΄ΠΎ 2.22x ΠΏΠΎ ΡΡΠ°Π²Π½Π΅Π½ΠΈΡ Ρ ΡΠ΅ΠΌ, ΡΡΠΎ Π±ΡΠ»ΠΎ ΡΠ°Π½ΡΡΠ΅. ΠΡΠ»ΠΈ Π·Π°ΠΊΠΎΠΏΠ°ΡΡΡΡ Π² ΡΠΈΡΡΡ, ΡΠΎ ΡΠ°ΠΌΡΠΉ Π±ΠΎΠ»ΡΡΠΎΠΉ ΠΏΡΠΈΡΠΎΡΡ Π½Π° Π΄Π΅ΠΊΠΎΠ΄ΠΈΠ½Π³Π΅. ΠΠ΅Ρ Π°Π½ΠΈΠ·ΠΌ Π²Π½ΠΈΠΌΠ°Π½ΠΈΡ Π² BF16 Π½Π° Π΄Π΅ΠΊΠΎΠ΄Π΅ ΡΠ°Π±ΠΎΡΠ°Π΅Ρ Π² 2.2 ΡΠ°Π·Π° Π±ΡΡΡΡΠ΅Π΅, ΡΠ΅ΠΌ ΡΠ²ΡΠ·ΠΊΠ° ΠΈΠ· FlashInfer, FlashAttention ΠΈ TensorRT-LLM. ΠΠ° ΠΏΡΠ΅ΡΠΈΠ»Π»Π΅ ΠΏΡΠΎΡΠΈΡ ΠΏΠΎΠΌΠ΅Π½ΡΡΠ΅ β ΠΎΠΊΠΎΠ»ΠΎ 1.33x, Π½ΠΎ ΡΡΠΎ ΡΠΎΠΆΠ΅ ΠΎΡΠ΅Π½Ρ ΠΎΡΡΡΠΈΠΌΠΎ. Π‘ FP8 ΠΈΡΡΠΎΡΠΈΡ ΠΏΠΎΡ ΠΎΠΆΠ°Ρ: ΡΡΠΊΠΎΡΠ΅Π½ΠΈΠ΅ Π² 2 ΡΠ°Π·Π° Π½Π° Π΄Π΅ΠΊΠΎΠ΄ΠΈΠ½Π³Π΅ ΠΈ Π½Π΅Π±ΠΎΠ»ΡΡΠΈΠ΅, Π½ΠΎ ΠΏΡΠΈΡΡΠ½ΡΠ΅ 12% Π½Π° ΠΏΡΠ΅ΡΠΈΠ»Π»Π΅. Π’ΠΎΡ ΠΆΠ΅ FusedMoE Π² FP8 ΠΏΡΠΈΠ±Π°Π²Π»ΡΠ΅Ρ ΠΏΠΎΡΡΠΈ 50% ΡΠΊΠΎΡΠΎΡΡΠΈ Π² ΡΠ΅ΠΆΠΈΠΌΠ΅ ΠΏΡΠ΅ΡΠΈΠ»Π»Π°. HPC-Ops Π΄ΡΡΠΆΠ΅Π»ΡΠ±Π΅Π½ ΠΊ vLLM ΠΈ SGLang, Π½ΠΎ ΠΈΠΌΠ΅ΠΉΡΠ΅ Π² Π²ΠΈΠ΄Ρ, ΡΡΠΎ ΡΡΠ°ΡΠΎΠ΅ ΠΆΠ΅Π»Π΅Π·ΠΎ ΡΡΡ Π½Π΅ ΠΏΠΎΠ΄Π΄Π΅ΡΠΆΠΈΠ²Π°Π΅ΡΡΡ, ΡΡΠΎ ΠΈΠ½ΡΡΡΡΠΌΠ΅Π½Ρ Π΄Π»Ρ ΠΊΠ°ΡΡ SM90. Π ΠΏΠ»Π°Π½Π°Ρ Π½Π° Π±ΡΠ΄ΡΡΠ΅Π΅: π’sparse attention; π’ΠΏΠΎΠ΄Π΄Π΅ΡΠΆΠΊΠ° 4-Π±ΠΈΡΠ½ΠΎΠ³ΠΎ ΠΊΠ²Π°Π½ΡΠΎΠ²Π°Π½ΠΈΡ; π’Π½ΠΎΠ²ΡΠ΅ ΡΠ΄ΡΠ°, ΠΊΠΎΡΠΎΡΡΠ΅ Π±ΡΠ΄ΡΡ ΡΡ Π»ΠΎΠΏΡΠ²Π°ΡΡ Π²ΡΡΠΈΡΠ»Π΅Π½ΠΈΡ ΠΈ ΠΏΠ΅ΡΠ΅Π΄Π°ΡΡ Π΄Π°Π½Π½ΡΡ ΠΌΠ΅ΠΆΠ΄Ρ GPU. ΠΡΠ»ΠΈ Π²Ρ ΡΠ΅ΠΉΡΠ°Ρ ΠΎΠΏΡΠΈΠΌΠΈΠ·ΠΈΡΡΠ΅ΡΠ΅ ΠΈΠ½ΡΠ΅ΡΠ΅Π½Ρ Π½Π° Π₯ΠΎΠΏΠΏΠ΅ΡΠ°Ρ ΠΈ Π±ΠΎΡΠ΅ΡΠ΅ΡΡ Π·Π° ΠΊΠ°ΠΆΠ΄ΡΠΉ ΡΠΎΠΊΠ΅Π½ Π² ΡΠ΅ΠΊΡΠ½Π΄Ρ ΡΡΡ ΡΡΡΠΊΡ ΡΡΠΎΠΈΡ ΠΊΠ°ΠΊ ΠΌΠΈΠ½ΠΈΠΌΡΠΌ ΠΏΠΎΡΠ΅ΡΡΠΈΡΡ. πΠΠΈΡΠ΅Π½Π·ΠΈΡΠΎΠ²Π°Π½ΠΈΠ΅: MIT License. π₯GitHub @ai_machinelearning_big_data #AI#ML#LLM#HPCOps#Tencent