게시물 내용
구글의 차세대 AI 학습·추론용 신규 TPU 2종 공개 구글은 Google Cloud Next 2026에서 AI용 맞춤형 칩 2종, 8세대 TPU 8t와 TPU 8i를 공개했습니다. 이전의 Ironwood TPU가 하나의 대형 추론 플랫폼이었다면, 이번에는 대규모 학습용과 고동시성 추론용으로 아키텍처를 분리한 것이 특징입니다. 이는 AI 에이전트 확산으로 학습과 추론 수요가 동시에 커진 데 대응한 것입니다. TPU 8t: 대규모 학습 특화 TPU 8t는 사전학습(pretraining) 과 임베딩 중심 워크로드에 최적화됐습니다. 3D 토러스 네트워크 토폴로지를 적용해 확장성을 높였고, 단일 포드에서 9,600개 칩을 연결할 수 있어 Ironwood의 9,216개보다 늘어났습니다. 또한 SparseCore와 네이티브 4비트 부동소수점을 활용해 대규모 언어모델에서 발생하는 불규칙한 메모리 접근과 대역폭 병목을 줄였습니다. 그 결과 더 작은 메모리 사용량으로도 정확도를 유지하면서 학습 속도와 처리량을 높일 수 있다고 설명했습니다. 구글은 TPU 8t가 대규모 학습에서 Ironwood 대비 최대 2.7배의 달러당 성능 향상을 제공한다고 주장했습니다. TPU 8i: 대규모 추론 특화 TPU 8i는 후학습(post-training) 과 고동시성 추론에 초점을 맞춘 칩입니다. Ironwood보다 3배 많은 SRAM을 탑재해 LLM 추론 시 더 큰 KV 캐시를 올릴 수 있고, 이를 통해 텍스트 생성 속도를 높입니다. 구글은 또 Collectives Acceleration Engine을 통해 자기회귀 디코딩과 chain-of-thought 과정에서 필요한 연산을 가속한다고 밝혔습니다. 네트워크 측면에서는 Boardfly ICI를 적용해 최대 1,152개 칩을 연결하고, MoE 모델에 중요한 all-to-all 통신 홉 수를 최대 50% 줄인다고 설명했습니다. TPU 8i는 낮은 지연시간 환경에서 Ironwood 대비 약 80%의 달러당 성능 향상을 목표로 합니다. https://siliconangle.com/2026/04/22/google-unveils-new-tpus-power-next-wave-ai-training-inference/