Post #9047

@ai_machinelearning_big_data

Machinelearning

Просмотры32,000Количество просмотров

Опубликован22 нояб.22.11.2025, 09:04

Содержимое поста

Содержимое

🖥 NVIDIA опубликовали гайд: как масштабировать биологическиемодели. Всё сводится к трём ключевым идеям: 1) Использовать Transformer Engine подменяет стандартные блоки на оптимизированные версии: меньше памяти, быстрее матричные операции, поддержка FP8/FP4. Это сразу увеличивает скорость обучения и инференса. 2) Масштабировать обучение до миллиардов параметров Через FSDP и гибридные режимы параллелизма можно разнести модель по нескольким GPU или узлам. И главное, конфигурация уже готова, не нужно собирать всё вручную. 3) Экономить память за счёт sequence packing Обычно биологические последовательности сильно различаются в длине, и половина батча забита паддингами. Packing позволяет «сжимать» батч, убирая пустые токены, итог: выше скорость, меньше VRAM. Писать CUDA-ядра вручную никто не хочет. BioNeMo Recipes позволяют использовать привычный стек PyTorch + HuggingFace, но при этом получать производительность уровня «больших» фреймворков. https://developer.nvidia.com/blog/scale-biology-transformer-models-with-pytorch-and-nvidia-bionemo-recipes/ @ai_machinelearning_big_data #NVIDIA