美国东部时间10月29日,AMD、亚马逊、Astera Labs、思科、谷歌、慧与科技(前身为惠普企业级产品部门)、英特尔、Meta和微软九大董事会成员联合宣布,成立UALink联盟(Ultra Accelerator Link Consortium),用以解决来自不同厂商芯片的互联问题,并提高卡间互联能力。
今年5月,由AMD等八家海外巨头成立的UALink推广小组(Promoter Group),已旗帜鲜明地提出了实现加速器芯片之间高效通信的目标。而今,UALink联盟的成立,是否意味着海外芯片大厂合力对抗英伟达的行动,更进了一步?
为什么是NVLink?
如果不是大模型训练拉高了训练集群规模需求,卡间互联技术NVLink则很难进入到大众视野。
而NVLink之所以越来越受到算力芯片乃至服务器行业关注,甚至成为英伟达除CUDA外的第二条“护城河”,原因可以总结成一句话:行业通用卡间互联协议跟不上大规模计算高速互联需求了。
在大规模计算集群建设过程中存在两大通信环节,一个是服务器内的卡间互联,PCIe为这一环节的行业标准通信协议;另一个是服务器间的互联,行业内存在RoCE等标准协议。
NVLink服务于服务器内卡间互联环节,推出的目的就是提升卡间互联效率。而现在,NVLink可支持带宽已大大超过PCIe标准协议。
英伟达于2014年推出第一代NVLink,当前已更新到第五代。
据业内人士统计,当前市面上流行的NVLink5.0版本可支持总带宽1.8TB/s,而PCIe最新的5.0版本可支持的总带宽约为128GB/s,即NVLink支持的带宽约为PCIe的14倍。
凭什么对抗NVlink?
UALink联盟成立的意图非常明显:对抗英伟达NVLink。
在卡间互联环节,在标准协议之外,不同芯片供应商会推出自己的协议标准,例如服务器GPU领域除英伟达之外的另一位龙头企业AMD推出了适用于芯片互联的Infinity Fabric。
当前,英伟达在数据中心端高性能GPU市场中已占有相当大的比重,NVLink也已具备较高的市场认知度。
基于此,有业界人士推测,UALink联盟极有可能是AMD为提升自己的行业影响力而与自己的客户共同成立,并将Infinity Fabric成果与联盟成员共享,以提升其行业影响力,从而抑制英伟达市场份额的急速膨胀。
同时,如果UALink联盟能够实现对卡间互联速度的提升,也可为微软、Meta等大计算集群客户提供一条新思路。
面对英伟达这样的强大对手,该联盟的竞争力何在?
首先是开放性。相较于服务于自家产品的英伟达,UALink是一项相对开放的行业标准,旨在连接数据中心内的AI加速器芯片,以满足日益增长的计算密集型工作负载的需求。其次是成员多。更多成员的加入,意味着UALink将有机会为更多的客户提供更能兼容不同计算芯片的解决方案,从而逐步扩大其市场影响力。
今年5月,AMD、英特尔、谷歌、微软、博通、思科、Meta、惠普企业等八家科技巨头联合组建UALink推广组(UALink Promoter Group)。该组织称,其目标是提供一个可扩展的、高性能的连接解决方案,支持AI和HPC应用,并允许多达1024个GPU AI加速器的连接,组成一个计算集群。
国内企业该如何选择?
“中国企业需要协力做一套自己的标准。”国内某服务器供应商市场方面负责人在接受《中国电子报》记者采访时这样说道。
在当前算力集群强调算力和传输速度的背景下,行业标准协议PCIe的缺点很明显——速率太低。PCIe协议需要兼容硬盘、网卡等很多低速设备,并非专为AI加速器芯片互联而设计,数据传输效率低,相比NVLink不具备市场竞争力。因此,国内企业推出具备自主知识产权的传输协议对于提升其自身市场竞争力非常重要。国产算力芯片企业自研卡间互联协议就是在这样的背景下应运而生的。
但开放的GPU卡间互联协议要不要有、是否要像UALink一样实现一致性,中国移动研究院网络与IT技术研究所主任研究员陈佳媛认为,关键在于卡间交换芯片。
相比于英伟达的技术路线,国内算力芯片卡间互联环节有个非常重要的区别在于——没有卡间互联芯片。这意味着国产算力芯片只能实现四卡直连或是八卡直连,但没法像英伟达那样实现一台服务器内集成高达72个GPU卡的规模。
因此,陈佳媛认为,当前我国应加快推动研发卡间开放互联协议和互联芯片,这样国内GPU芯片才有可能向更大互联规模升级,达到更高的互联带宽,并最终提升整个智算集群的计算效率。不同于UALink由AMD主导协议制定,选择更加中立的企业去推动协议标准的制定将更符合我国国情,以确保协议可以尽可能惠及更多的GPU企业,更好地支持国内智算产业的发展。