Post #8541

@ai_machinelearning_big_data

Machinelearning

Просмотры26,000Количество просмотров

Опубликован13 сент.13.09.2025, 10:04

Содержимое поста

Содержимое

🖥 Nvidia меняет стратегию и уходит от универсальных GPU. Теперь каждый чип будет заточен под конкретный этап LLM-инференса. Инференс делится на два шага: - Prefill - первая стадия. Требует огромной вычислительной мощности, но почти не использует память. - Decode - вторая стадия. Наоборот, сильно нагружает память, но вычислений нужно меньше. Раньше, например, R200 объединял в одном GPU и мощные вычислительные блоки, и много памяти. В итоге это было дорого и неэффективно: - при Prefill простаивает память, - при Decode — простаивают вычислительные блоки. 🟢Новый подход Nvidia — разные GPU под разные задачи: - Rubin CPX - оптимизирован для Prefill • 20 PFLOPS вычислений • 128 GB GDDR7 • 2 TB/s пропускная способность - R200 — GPU под Decode • 288 GB HBM4 • 20.5 TB/s памяти 📆 Планы компании: - **2024–2025**-— линейка Blackwell (B200, GB300): рост вычислений и памяти. - 2026–2027 - Rubin разделится: • VR200 — для Decode (максимум HBM). • CPX — для Prefill (много вычислений, дешёвая память). - 2027 — VR300 Ultra: 66.7 PFLOPS и 1024 GB HBM4E. Nvidia перестраивает линейку так, чтобы каждый GPU работал максимально эффективно именно под свой этап инференса. #Nvidia#GPU#AI#Blackwell#Rubin#LLM