万卡集群成为大模型训练标配

第08版：半导体

上一版

放大+ 缩小- 默认o

万卡集群成为大模型训练标配

——访摩尔线程创始人兼CEO张建中

本报记者路轶晨

7月3日，摩尔线程宣布其AI旗舰产品夸娥（KUAE）智算集群解决方案实现重大升级，从当前的千卡级别大幅扩展至万卡规模。摩尔线程夸娥（KUAE）万卡智算集群目标是打造能够承载万卡规模、具备万P级浮点运算能力的国产通用加速计算平台。此外，当天摩尔线程联合中国移动青海公司、中国联通青海公司、北京德道信科集团、中国能源建设股份有限公司总承包公司、桂林华崛大数据科技有限公司分别就三个万卡集群项目进行了战略签约，多方聚力共同构建好用的国产GPU集群。会议期间，《中国电子报》记者就AI大模型发展趋势以及如何突破我国算力瓶颈等问题对摩尔线程创始人兼CEO张建中进行了专访。

大模型演进呼唤高性能算力

关于业界热议的大模型未来走向，张建中认为，有三方面演进趋势值得关注。

一是标度律（Scaling Law）将持续奏效。Scaling Law自2020年被提出以来，已揭示了大模型发展背后的“暴力美学”，即通过算力、算法、数据的深度融合与经验积累，实现模型性能的飞跃，这也成为业界公认的将持续影响未来大模型的发展趋势。Scaling Law将持续奏效，需要单点规模够大并且通用的算力才能快速跟上技术演进。

二是Transformer架构不能实现大一统，会和其他架构持续演进并共存，形成多元化的技术生态。生成式人工智能的进化并非仅依赖于规模的简单膨胀，技术架构的革新同样至关重要。Transformer架构虽然是当前主流，但新兴架构如Mamba、RWKV和RetNet等不断刷新计算效率，加快创新速度。随着技术迭代与演进，Transformer架构并不能实现大一统，从稠密到稀疏模型，再到多模态模型的融合，技术的进步都展现了对更高性能计算资源的渴望。

三是AI、3D和HPC跨技术与跨领域融合不断加速，推动着空间智能、物理AI和AI4Science、世界模型等领域的边界拓展，使得大模型的训练和应用环境更加复杂多元，市场对于能够支持AI+3D、AI+物理仿真、AI+科学计算等多元计算融合发展的通用加速计算平台的需求日益迫切。

万卡已是模型训练主战场的标配

“多元趋势下，AI模型训练的主战场，万卡已是标配。”张建中强调，随着计算量不断攀升，大模型训练亟须超级工厂，即一个“大且通用”的加速计算平台，以缩短训练时间，实现模型能力的快速迭代。当前，国际科技大厂都在通过积极部署千卡乃至超万卡规模的计算集群，以确保大模型产品的竞争力。随着模型参数量从千亿迈向万亿，模型能力更加泛化，大模型对底层算力的诉求进一步升级，万卡甚至超万卡集群成为这一轮大模型竞赛的入场券。

然而，构建万卡集群并非一万张GPU卡的简单堆叠，而是一项高度复杂的超级系统工程。它涉及超大规模的组网互联、高效率的集群计算、长期稳定性和高可用性等诸多技术难题。这是难而正确的事情，摩尔线程希望能够建设一个规模超万卡、场景够通用的加速计算平台，并优先解决大模型训练的难题。

中国如何突破算力瓶颈？

“当前，我们正处在生成式人工智能的黄金时代，技术交织催动智能涌现，GPU成为加速新技术浪潮来临的创新引擎。”张建中表示，“中国的人工智能落地场景相比国外来说更加广泛，因为中国在人工智能应用领域里面开发者数量很多，落地速度也更快。”

张建中认为，目前国内大模型行业发展面临的主要问题，不是中国公司的研发人员技术水平比国外差，归根结底还是缺少充足的算力。而这个问题不是光靠堆积GPU的数量就能解决的。

“集中力量办大事，打造好用的万卡级别的算力集群，才能让用户真正地使用好大模型。”张建中说道。

张建中强调，在技术层面，中国企业完全有信心有能力去追赶全球顶级GPU企业，做出更先进、性价比更高的芯片。但光有技术还不够，更重要的是生态环境的完善，这需要政府及产业链上下游企业共同努力。

放大+ 缩小- 默认o