Содержимое
✔️Яндекс сократил затраты на обучение LLM на 4,8 млрд рублей в год без потери качества и темпов разработки Компания сообщила о масштабной оптимизации инфраструктуры обучения больших языковых моделей: качество и объёмы разработки сохранены, а годовая экономия составила 4,8 млрд ₽ (≈ 400 млн ₽ в месяц). 🟡Ключевое решение — библиотека YCCL YCCL (Yet Another Collective Communication Library) — собственная разработка Яндекса для ускорения коллективных операций и межпроцессорного взаимодействия в кластерах. С её помощью удалось: - в 2 раза ускорить обмен данными между GPU, - сократить объём передаваемой информации - перенести часть управляющей логики с GPU на CPU, снизив нагрузку на графические процессоры. Сопоставимые по уровню решения есть только у крупнейших игроков рынка (Meta, AMD и ряд китайских бигтех-компаний). 🟡Переход на FP8 Компания внедрила вычисления в формате FP8, что дало: ускорение обучения до 30%, двукратное снижение коммуникаций между GPU. 🟡Масштабирование и эффективность кластеров Размер батча увеличен до 16–32 млн токенов, что уменьшило простой GPU и повысило загрузку и эффективность использования кластеров. Дополнительно улучшили стабильность инфраструктуры и сократили затраты, связанные с перезапусками обучения. @ai_machinelearning_big_data #news#ai#ml