谷歌推出 TPU 8t / 8i，两款 AI 芯片分别面向训练和智能体推理

谷歌在 Google Cloud Next 发布两款定制 AI ASIC 芯片：面向训练的 TPU 8t 和面向智能体/低延迟推理的 TPU 8i。TPU 8t 提升单芯片横向扩展带宽至 400Gbps、Pod 规模增至 9600 芯，整体 FP4 算力近 2 倍提升，优化大规模训练吞吐；TPU 8i 配备 CAE 片上加速引擎、384MB 片上 SRAM 和 288GB HBM，Pod 规模增至 1152 芯，单 Pod 的 FP8 算力与 HBM 容量分别提升约 8.67 倍和 5.74 倍，面向延迟敏感的推理工作负载。谷歌称两款芯片的能效为上一代 Ironwood 的两倍，且二者在一定程度上可互补承担对方任务。

4 月 22 日消息，谷歌在当地时间今日举行的 Google Cloud Next 大会上宣布推出两款定制 AI ASIC 芯片，分别是为推理优化的 TPU 8t 和面向智能体推理工作负载的 TPU 8i，两款芯片也有承担对方优势任务的能力。

TPU 8t 在处理大规模、计算密集型的训练工作负载时表现出色，其设计具备更高的计算吞吐量和更强的纵向扩展带宽。TPU 8i 则配备了更高的内存带宽，专为处理对延迟最为敏感的推理工作负载而设计。

TPU 8t 的 Pod 规模从此前的 9216 颗进一步增加至 9600 颗，但总 FP4 算力规模提升则接近 2 倍。其单芯片横向扩展 (Scale-out) 带宽从 100Gbps 显著增长至 400Gbps，这化解了大规模互联中的瓶颈。

TPU 8i 则拥有 CAE 片上加速引擎，配备 384MB 片上 SRAM 和 288GB 片外 HBM，运行时的数据无需存取。其 Pod 规模从上代的 256 颗显著提升至 1152 颗，每 Pod 的 FP8 算力和 HBM 内存容量分别提升 8.67 倍和 5.74 倍。

谷歌表示，TPU 8t 和 TPU 8i 的能效是上一代 TPU Ironwood 的两倍。