Post #8334

@ai_machinelearning_big_data

Machinelearning

Просмотры37,100Количество просмотров

Опубликован21 авг.21.08.2025, 18:10

Содержимое поста

Содержимое

⚡ PyTorch представил **ZenFlow** — новый движок для обучения больших языковых моделей без «простоев» GPU. В чём проблема? Когда при обучении LLM данные и градиенты выгружаются на CPU (offloading), GPU часто простаивает: шина PCIe медленная, а вычисления на CPU ещё медленнее. В итоге шаг обучения может замедлиться в 10–15 раз. Как решает ZenFlow: - 🔄 Делит градиенты по важности: ключевые обновляются сразу на GPU, остальные — асинхронно на CPU. - ⏱️ Все операции перекрываются: пока CPU считает и гоняет данные по PCIe, GPU продолжает работать. - 🚀 Это снижает простои GPU на 85% и ускоряет обучение в среднем в 5 раз (по сравнению с DeepSpeed ZeRO-Offload). - 📉 PCIe загружается в 2 раза меньше, а качество обучения моделей не падает. Итог: ZenFlow делает обучение LLM быстрее и эффективнее — теперь GPU работают почти без перерывов, а модели масштабируются без потери качества. 🟢Подробности: https://pytorch.org/blog/zenflow-stall-free-offloading-engine-for-llm-training/ @machinelearning_interview