• 官方微信公众号
  • 电子信息产业网
  • 微博
第06版:人工智能

昇腾大规模专家并行方案为模型落地千行百业“铺新路”

本报记者 张琪玮

自今年2月DeepSeek“引爆”科技产业已经过去了一月有余,这期间,DeepSeek用户数、访问量一路走高,来自不同领域的企业也纷纷接入DeepSeek。与日俱增的算力需求,成为当下DeepSeek乃至整个国内科技产业都必须面临的挑战。为此,在不久前举办的DeepSeek开源周里,DeepSeek提出大规模跨节点专家并行作为解决思路,助力大模型下一步的高效部署与深度应用。

在此背景下,华为发布昇腾大规模专家并行推理方案,凭借其独特的产业积累与技术优势,为这一思路提供了可行的落点。记者了解到,该推理方案能够以跨卡分布式计算实现单卡性能3倍跃升、推理时延降低50%,真正为大模型与产业的融合应用打造了一条“快车道”。

大规模专家并行成模型演进大势所趋

在日前举办的GTC大会上,英伟达首席执行官黄仁勋表示,推理模型的思考Token量和计算量与传统大模型不可同日而语,下一代模型参数或达万亿级别。“为了处理这个庞大的模型,最好的办法是将这些模型的计算任务分布到整个GPU系统中,通过管线并行、张量并行或专家并行的组合来解决。”他所提到的专家并行,也就是DeepSeek和华为目前的着力点——大规模专家并行解决方案。

所谓大规模专家并行解决方案,就是将专家(Expert)模型分布到更多的卡上,并显著提升单卡并行的路数(batch size),每个专家模型计算路数的增加可改善矩阵乘的效率,进而实现更大的吞吐和更低的时延。

行业专家向《中国电子报》记者表示:“未来,大模型将会延续当下‘技术摸高’和‘工程创新’两条发展路径:一方面,头部科技企业持续突破模型能力边界,对算力的需求不断攀升;另一方面,以DeepSeek为代表的部分企业更关注便捷、易用,具备性价比的平台,旨在降低大模型的部署门槛,促进大模型应用的普及。”

见微知著,从DeepSeek的发展模式来看,其利用基础模型生成高质量合成数据,突破了数据限制;同时,降低了单个模型使用的算力门槛,将推理资源池的门槛降至百卡/千卡范围。随着模型部署门槛日渐降低、普及面越来越广,模型的技术演进方向也必然呈现出从“少量大专家”向“大量小专家”演进的趋势,大EP方向已成模型演进的大势所趋。

昇腾大规模专家并行方案解决路径技术难点

然而,该方案在落地过程中同样面临着种种难题。一方面,MoE模型(混合专家模型)中,不同专家网络的激活次数存在显著差异,不同专家网络间负载不均衡,导致部分NPU过载,部分NPU则处于闲置状态,影响推理效率;另一方面,由于缺乏有效利用专家网络之间的亲和性部署的策略,在传统的部署方式下,NPU之间的协作效率较低,整体资源利用率不足;此外,在多个专家网络共同运作下,专家网络间通信耗时占比较高、开销较大。

基于此,行业专家表示,基于深厚的资源积累与技术优势,昇腾大规模专家并行方案将成为应对这些挑战的“利器”:通过分层部署、卡间调整以及层间优化等策略,昇腾能够有效解决大EP场景下负载不均衡、通信开销高、资源利用率不足等问题。

据介绍,该方案实现了五大关键技术突破:一是MoE负载均衡,通过自动寻优、自动预测、自动配比等技术,确保专家计算任务的均衡分布,优化推理效率;二是自适应PD分离部署方案,可以自动感知负载变化,动态调整Prefill(预填充)与Decode(解码)实例的资源分配,使系统吞吐量提升50%以上;三是双流/多维混合并行,在不同阶段均实现双流并行计算,平均性能提升30%;四是通信优化与算子融合,采用双流/多维混合并行计算,以及MLAPO融合算子,将计算、通信和权重加载任务优化并行处理,减少了计算开销,有效降低计算耗时70%;五是实现MTP适配,在MTP推理场景下,通过支持MTP并优化,让模型的推理效率实现最大1.8倍提升,并通过自研的DraftDecoding算法实现一次生成多个token并行校验,多用户并发能力提高2倍。

相较于当前业界主流的H20芯片,昇腾大EP推理方案为行业和企业带来了新的更优选择。记者了解到,英伟达H20芯片的AI算力仅为H100的15%,单卡算力瓶颈会导致大规模集群部署的性能不稳定;此外,其设计难以匹配正逐渐成为主流的MoE模式,在高batch size(批量大小)场景下性能瓶颈明显,时延大幅增加,难以适应快速更迭的技术需求。

“昇腾大EP从推理硬件、硬件使能和推理引擎三个层面,构建起了高性能、高吞吐、高并发的全方位能力;此外,还在方案、性能和生态方面具有全面优势。”行业专家向记者表示。具体而言,在方案层面,昇腾提供从预训练到微调到强化学习,再到推理集群、一体机的全流程全覆盖方案,并且是业界首个能够复现DeepSeek R1强化学习流程的方案;性能上,昇腾凭借自身硬件和软件的协同亲和,充分利用底层资源释放性能;生态方面,软件开源开放,兼容业界主流框架,为用户提供丰富的选择和高效的自主训练与创新环境。

2025-03-28 本报记者 张琪玮 1 1 中国电子报 content_13298.html 1 昇腾大规模专家并行方案为模型落地千行百业“铺新路” /enpproperty-->