← Machinelearning
Machinelearning avatar

TGINSIGHT POST

Post #9450

@ai_machinelearning_big_data

Machinelearning

ΠŸΡ€ΠΎΡΠΌΠΎΡ‚Ρ€Ρ‹26,200ΠšΠΎΠ»ΠΈΡ‡Π΅ΡΡ‚Π²ΠΎ просмотров
ΠžΠΏΡƒΠ±Π»ΠΈΠΊΠΎΠ²Π°Π½29 янв.29.01.2026, 18:10
Π‘ΠΎΠ΄Π΅Ρ€ΠΆΠΈΠΌΠΎΠ΅ поста

Π‘ΠΎΠ΄Π΅Ρ€ΠΆΠΈΠΌΠΎΠ΅

🌟Tencent HPC-Ops: Ρ€Π΅ΡˆΠ΅Π½ΠΈΠ΅, ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠ΅ Π²Ρ‹ΠΆΠΌΠ΅Ρ‚ максимум ΠΈΠ· H100 ΠΈ H200. ΠŸΡ€ΠΎΠ΄Π°ΠΊΡˆΠ΅Π½ Π±ΠΎΠ»ΡŒΡˆΠΈΡ… ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ β€” ΡˆΡ‚ΡƒΠΊΠ° дорогая ΠΈ Π² Ρ‚Π°ΠΊΠΈΡ… ΠΌΠ°ΡΡˆΡ‚Π°Π±Π°Ρ… Ρ€Π΅Π°Π»ΡŒΠ½ΠΎ Π±ΡŒΡŽΡ‚ΡΡ Π·Π° ΠΊΠ°ΠΆΠ΄Ρ‹ΠΉ ΠΏΡ€ΠΎΡ†Π΅Π½Ρ‚ скорости. Tencent Hunyuan AI Infra Π²Ρ‹Π»ΠΎΠΆΠΈΠ»Π° Π² ΠΎΡ‚ΠΊΡ€Ρ‹Ρ‚Ρ‹ΠΉ доступ HPC-Ops - Ρ€Π°Π±ΠΎΡ‡ΡƒΡŽ Π±ΠΈΠ±Π»ΠΈΠΎΡ‚Π΅ΠΊΡƒ, Π½Π° ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΉ, Π² Ρ‚ΠΎΠΌ числС, крутится ΠΈΡ… собствСнная инфраструктура. Π Π°Π·Ρ€Π°Π±ΠΎΡ‚Ρ‡ΠΈΠΊΠΈ Ρ€Π΅ΡˆΠΈΠ»ΠΈ Π½Π΅ Π»Π°Ρ‚Π°Ρ‚ΡŒ староС, Π° пСрСписали всС с нуля Π½Π° чистой CUDA ΠΈ CuTe ΡΠΏΠ΅Ρ†ΠΈΠ°Π»ΡŒΠ½ΠΎ ΠΏΠΎΠ΄ Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€Ρƒ Hopper. И это Π»ΠΎΠ³ΠΈΡ‡Π½ΠΎ: популярныС Ρ€Π΅ΡˆΠ΅Π½ΠΈΡ Π²Ρ€ΠΎΠ΄Π΅ vLLM ΠΈΠ»ΠΈ Π΄Π΅Ρ„ΠΎΠ»Ρ‚Π½ΠΎΠ³ΠΎ FlashAttention часто Π½Π΅ Π΄ΠΎ ΠΊΠΎΠ½Ρ†Π° ΡƒΡ‚ΠΈΠ»ΠΈΠ·ΠΈΡ€ΡƒΡŽΡ‚ возмоТности ΠΆΠ΅Π»Π΅Π·Π°. Π’ HPC-Ops ΠΆΠ΅ Ρ†Π΅Π»ΡŒΡŽ Π±Ρ‹Π»Π° максимальная Π·Π°Π³Ρ€ΡƒΠ·ΠΊΠ° GPU. Π’Π½ΡƒΡ‚Ρ€ΠΈ Π΅ΡΡ‚ΡŒ всС, Ρ‡Ρ‚ΠΎ Π½ΡƒΠΆΠ½ΠΎ для сборки ΡΠ΅Ρ€ΡŒΠ΅Π·Π½ΠΎΠ³ΠΎ инфСрСнса: ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·ΠΈΡ€ΠΎΠ²Π°Π½Π½Ρ‹Π΅ ядра внимания с paged attention, ΠΊΠ²Π°Π½Ρ‚ΠΎΠ²Π°Π½Π½Ρ‹ΠΉ Grouped GEMM с ΠΏΠΎΠ΄Π΄Π΅Ρ€ΠΆΠΊΠΎΠΉ FP8 ΠΈ Π±Π»ΠΎΡ‡Π½Ρ‹ΠΌ скСйлингом, Fused MoE ΠΈ инструмСнты связи Π½ΠΎΠ΄ для распрСдСлСнных систСм. На своих модСлях с HPC-Ops Ρƒ Tencent пропускная ΡΠΏΠΎΡΠΎΠ±Π½ΠΎΡΡ‚ΡŒ выросла Π½Π° 30%, Π° для DeepSeek Π½Π° 17%. Но интСрСснСС всСго Π΄Π΅Π»Π° обстоят с H20: Ρ‚Π°ΠΌ Π±ΠΈΠ±Π»ΠΈΠΎΡ‚Π΅ΠΊΠ° бустит ускорСниС Π΄ΠΎ 2.22x ΠΏΠΎ ΡΡ€Π°Π²Π½Π΅Π½ΠΈΡŽ с Ρ‚Π΅ΠΌ, Ρ‡Ρ‚ΠΎ Π±Ρ‹Π»ΠΎ Ρ€Π°Π½ΡŒΡˆΠ΅. Если Π·Π°ΠΊΠΎΠΏΠ°Ρ‚ΡŒΡΡ Π² Ρ†ΠΈΡ„Ρ€Ρ‹, Ρ‚ΠΎ самый большой прирост Π½Π° Π΄Π΅ΠΊΠΎΠ΄ΠΈΠ½Π³Π΅. ΠœΠ΅Ρ…Π°Π½ΠΈΠ·ΠΌ внимания Π² BF16 Π½Π° Π΄Π΅ΠΊΠΎΠ΄Π΅ Ρ€Π°Π±ΠΎΡ‚Π°Π΅Ρ‚ Π² 2.2 Ρ€Π°Π·Π° быстрСС, Ρ‡Π΅ΠΌ связка ΠΈΠ· FlashInfer, FlashAttention ΠΈ TensorRT-LLM. На ΠΏΡ€Π΅Ρ„ΠΈΠ»Π»Π΅ ΠΏΡ€ΠΎΡ„ΠΈΡ‚ помСньшС β€” ΠΎΠΊΠΎΠ»ΠΎ 1.33x, Π½ΠΎ это Ρ‚ΠΎΠΆΠ΅ ΠΎΡ‡Π΅Π½ΡŒ ΠΎΡ‰ΡƒΡ‚ΠΈΠΌΠΎ. Π‘ FP8 история похоТая: ускорСниС Π² 2 Ρ€Π°Π·Π° Π½Π° Π΄Π΅ΠΊΠΎΠ΄ΠΈΠ½Π³Π΅ ΠΈ нСбольшиС, Π½ΠΎ приятныС 12% Π½Π° ΠΏΡ€Π΅Ρ„ΠΈΠ»Π»Π΅. Π’ΠΎΡ‚ ΠΆΠ΅ FusedMoE Π² FP8 прибавляСт ΠΏΠΎΡ‡Ρ‚ΠΈ 50% скорости Π² Ρ€Π΅ΠΆΠΈΠΌΠ΅ ΠΏΡ€Π΅Ρ„ΠΈΠ»Π»Π°. HPC-Ops Π΄Ρ€ΡƒΠΆΠ΅Π»ΡŽΠ±Π΅Π½ ΠΊ vLLM ΠΈ SGLang, Π½ΠΎ ΠΈΠΌΠ΅ΠΉΡ‚Π΅ Π² Π²ΠΈΠ΄Ρƒ, Ρ‡Ρ‚ΠΎ староС ΠΆΠ΅Π»Π΅Π·ΠΎ Ρ‚ΡƒΡ‚ Π½Π΅ поддСрТиваСтся, это инструмСнт для ΠΊΠ°Ρ€Ρ‚ SM90. Π’ ΠΏΠ»Π°Π½Π°Ρ… Π½Π° Π±ΡƒΠ΄ΡƒΡ‰Π΅Π΅: 🟒sparse attention; πŸŸ’ΠΏΠΎΠ΄Π΄Π΅Ρ€ΠΆΠΊΠ° 4-Π±ΠΈΡ‚Π½ΠΎΠ³ΠΎ квантования; πŸŸ’Π½ΠΎΠ²Ρ‹Π΅ ядра, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ Π±ΡƒΠ΄ΡƒΡ‚ ΡΡ…Π»ΠΎΠΏΡ‹Π²Π°Ρ‚ΡŒ вычислСния ΠΈ ΠΏΠ΅Ρ€Π΅Π΄Π°Ρ‡Ρƒ Π΄Π°Π½Π½Ρ‹Ρ… ΠΌΠ΅ΠΆΠ΄Ρƒ GPU. Если Π²Ρ‹ сСйчас ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·ΠΈΡ€ΡƒΠ΅Ρ‚Π΅ инфСрСнс Π½Π° Π₯ΠΎΠΏΠΏΠ΅Ρ€Π°Ρ… ΠΈ Π±ΠΎΡ€Π΅Ρ‚Π΅ΡΡŒ Π·Π° ΠΊΠ°ΠΆΠ΄Ρ‹ΠΉ Ρ‚ΠΎΠΊΠ΅Π½ Π² сСкунду эту ΡˆΡ‚ΡƒΠΊΡƒ стоит ΠΊΠ°ΠΊ ΠΌΠΈΠ½ΠΈΠΌΡƒΠΌ ΠΏΠΎΡ‚Π΅ΡΡ‚ΠΈΡ‚ΡŒ. πŸ“ŒΠ›ΠΈΡ†Π΅Π½Π·ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅: MIT License. πŸ–₯GitHub @ai_machinelearning_big_data #AI#ML#LLM#HPCOps#Tencent