Post #86

@AIexTime

AI[ex]Time

Views2,710Post view count

PostedJul 3007/30/2024, 03:27 PM

Post content

Последние несколько дней в который раз разбирался в видах параллельного обучения: FSDP, TP/PP, Zero и так далее. По серии постов от huggingface получится скопировать и как-то запустить, но основательно понять — вряд ли. Можно конечно читать оригинальные статьи, но это не очень хороший первый шаг, когда нужно получить интуицию. Посоветовали заметки от University of Amsterdam, где неплохо описана секция Training Models at Scale, с описанием collective operations, которые применяются в каждом алгоритме, и примерами имплементации. Делюсь с вами, возможно пригодится тем, кому предстоит пилить такие вещи самому. Все примеры правда на Jax, но читается вполне нормально 😅