谷歌推出第七代TPU

第08版：半导体

上一版

放大+ 缩小- 默认o

谷歌推出第七代TPU

本报讯近日，谷歌在拉斯维加斯举办的Cloud Next 25大会上正式推出第七代张量处理单元（TPU）Ironwood，这是其首款专为AI推理设计的定制加速器，也是迄今为止性能最高、可扩展性最强的TPU。Ironwood单芯片峰值算力达4614TFLOPs，支持FP8计算精度，配合突破性的液冷技术与芯片间互连（ICI）网络，最大集群配置9216颗芯片时总算力可达42.5ExaFLOPs，是当前全球最强超级计算机El Capitan的24倍。

据了解，Ironwood的核心突破在于能效与扩展性的双重飞跃。相比第六代TPU Trillium，其性能功耗比提升2倍，单芯片高频宽内存（HBM）容量增至192GB，是前代的6倍，带宽达7.2Tbps，是前代的4.5倍，芯片间互连带宽提升至1.2Tbps，显著减少数据传输延迟。谷歌云副总裁Amin Vahdat指出，Ironwood通过液冷解决方案和芯片设计优化，可在标准风冷环境下维持两倍性能，其能效比相比2018年首款云TPU提升近30倍。

这一性能升级直接瞄准生成式AI与推理密集型任务。Ironwood支持训练和推理超大规模稠密语言模型（LLM）及混合专家模型（MoE），其增强版SparseCore加速器还可处理金融、科学等领域的超大规模嵌入计算，进一步拓展应用边界。

Ironwood的推出标志着AI基础设施从被动响应向主动推理的转型。谷歌将这一阶段定义为“推理时代”，即AI模型不再仅提供实时数据解读，而是通过智能体（Agent）主动检索与生成数据，协作输出深度见解。

技术层面，Ironwood通过三大创新支撑这一转变。一是芯片架构优化，采用第三代 SparseCore 加速器，在执行张量操作时减少数据移动，提升内存访问效率；二是分布式计算能力，集成DeepMind开发的Pathways软件栈，支持跨数十万颗芯片的高效协同，突破单集群算力限制；三是低延迟通信网络，通过ICI网络实现全集群同步通信，确保大规模分布式训练与推理的高效协作。（杨鹏岳）

放大+ 缩小- 默认o