本报讯 近日,谷歌在拉斯维加斯举办的Cloud Next 25大会上正式推出第七代张量处理单元(TPU)Ironwood,这是其首款专为AI推理设计的定制加速器,也是迄今为止性能最高、可扩展性最强的TPU。Ironwood单芯片峰值算力达4614TFLOPs,支持FP8计算精度,配合突破性的液冷技术与芯片间互连(ICI)网络,最大集群配置9216颗芯片时总算力可达42.5ExaFLOPs,是当前全球最强超级计算机El Capitan的24倍。
据了解,Ironwood的核心突破在于能效与扩展性的双重飞跃。相比第六代TPU Trillium,其性能功耗比提升2倍,单芯片高频宽内存(HBM)容量增至192GB,是前代的6倍,带宽达7.2Tbps,是前代的4.5倍,芯片间互连带宽提升至1.2Tbps,显著减少数据传输延迟。谷歌云副总裁Amin Vahdat指出,Ironwood通过液冷解决方案和芯片设计优化,可在标准风冷环境下维持两倍性能,其能效比相比2018年首款云TPU提升近30倍。
这一性能升级直接瞄准生成式AI与推理密集型任务。Ironwood支持训练和推理超大规模稠密语言模型(LLM)及混合专家模型(MoE),其增强版SparseCore加速器还可处理金融、科学等领域的超大规模嵌入计算,进一步拓展应用边界。
Ironwood的推出标志着AI基础设施从被动响应向主动推理的转型。谷歌将这一阶段定义为“推理时代”,即AI模型不再仅提供实时数据解读,而是通过智能体(Agent)主动检索与生成数据,协作输出深度见解。
技术层面,Ironwood通过三大创新支撑这一转变。一是芯片架构优化,采用第三代 SparseCore 加速器,在执行张量操作时减少数据移动,提升内存访问效率;二是分布式计算能力,集成DeepMind开发的Pathways软件栈,支持跨数十万颗芯片的高效协同,突破单集群算力限制;三是低延迟通信网络,通过ICI网络实现全集群同步通信,确保大规模分布式训练与推理的高效协作。(杨鹏岳)