TGTGInsightаналитика telegramLIVE / telegram public index
← addmeto
addmeto avatar

TGINSIGHT POST

Post #5976

@ADDMETO

addmeto

Просмотры54,900Количество просмотров
Опубликован5 дек.05.12.2024, 08:45
Содержимое поста

Содержимое

Прочитал за вас большой анализ по Trainium2, новой вычислительной платформе от Amazon. - Главная задача в разработке Trainium2 — повысить конкурентоспособность AWS на рынке предоставления услуг для GenAI. - AWS делает кластер на 400000 чипов Trainium2 для Anthropic в рамках Проекта Rainier, что указывает на сильное партнерство. Мы часто обсуждали, есть ли связь между амазоном и Антропиком помимо инвестиций. - Главные цифры — 650 TFLOP/s и 96GB памяти. - NeuronLinkv3 — шина высокоскоростной внутренней и межсерверной связи, образует очень красивый гиперкуб, в котором 32 узла Trainium2 связаны друг с другом на скорости в 640 гигабит. И пока это чуть ли не самое интересное и свежее во всей конструкции платформы. - Раздельные движки для работы с разными типами данных (Tensor, Vector, Scalar) тоже выгодно отличают Trainium от классических GPU. - Trainium2 — это прямой конкурент Nvidia H100 и Google TPU. - Энергобюджет для кластеров Trainium2 до 48 кВт на сервер Trn2-Ultra. В общем, за потреблением амазону приходится следить. - AWS внедрила автоматизированные проверки работоспособности и диагностику для обеспечения надежности прямо в платформу. Очень умно и красиво, тут виден прямо подход. Я вам очень рекомендую прочитать статью самим, прямо глубоко. На фоне недавнего рассказа Эппл о том, что они активно используют Trainium2 и вообще живут на этом куске Амазона, — популярность этого решения будет расти и быстро. https://semianalysis.com/2024/12/03/amazons-ai-self-sufficiency-trainium2-architecture-networking/