统筹智算资源破解大模型“算力荒”

第06版：信息通信

上一版下一版

放大+ 缩小- 默认o

鹏博士集团副总裁孙向东：

统筹智算资源破解大模型“算力荒”

本报记者姬晓婷

“通用算力是不缺的，我们现在缺的是能够满足大模型训练需求的智能算力。”算力运营商鹏博士集团副总裁孙向东在接受《中国电子报》记者专访时这样说道。建设满足大模型训练需求的智算中心、提高智能算力供给能力，是破解大模型发展瓶颈的关键。

大模型训练需要新建智算中心

算力指的是计算能力，即CPU、GPU、TPU、FPGA、ASIC等各类处理器依托计算机服务器、高性能计算集群、各类智能终端等承载设备，每秒执行数据运算次数的能力，常见的计量单位包括TOPS（每秒可进行万亿次操作数）、FLOPS（每秒所执行的浮点运算次数）、MIP（每秒执行百万级指令数）等。

当前算力共有三种——通用算力、智能算力和超算算力。其中，通用算力主要由CPU芯片提供，可完成大多数类型的处理任务；智能算力由GPU、FPGA、AI加速芯片等提供，用于人工智能算法模型训练与模型推理；超算算力由超级计算机等高性能计算集群提供，主要用于尖端科学领域的计算，比如行星模拟、药物分子设计、基因分析等。

孙向东表示，从市场供需情况来看，我国并不缺通用算力，缺的是由大模型训练带来的智能算力需求。孙向东说，模型训练完成后，可以通过压缩、系数化等处理放在较低端的算力芯片上做运营和服务，目前，满足模型推理所需的算力芯片并不缺。

根据《中国综合算力指数（2023年）》，截至2023年6月底，我国算力总规模达到197EFLOPS，其中通用算力规模占比达到74%，智能算力规模同比增长45%，比算力规模整体增速高15%，在整体算力规模中的比例提高至25.4％。

研究机构数据显示，在大模型训练需求的带动下，智能算力增长速度将远超通用算力。全球智能算力规模将在2027年达1117.4EFlops，大致相当于2023年的2.7倍及2020年的15倍。

在接受《中国电子报》记者采访时孙向东表示：“自ChatGPT出现以来，我们能够直观地感受到智算需求的增长。”

然而，与算力需求增长强劲同时存在的，是我国智能算力供给不足，这是当前我国算力市场面临的主要矛盾。由此，孙向东表示，要配合需求建设能够满足智能算力的智算中心。

之所以要新建算力中心，是因为智算中心与传统数据中心存在诸多不同，改造传统数据中心并不能满足智算需要。二者的区别首先体现在组建机柜的芯片种类上，传统数据中心提供计算功能的芯片以CPU为主，智算中心以GPU等可提供AI并行计算的芯片为主。二者的区别还体现在服务器机柜的组建方式、功耗等诸多方面。传统数据中心的业务以存储为主，其功耗为4~6千瓦时；智算中心的业务则以高性能计算为主，其功耗可能达到12千瓦时甚至更高。不仅需要配备高密度机柜，整个机房的布局也要配合需求进行调整。

为满足市场的强需求，符合人工智能应用需要的智算中心正在建设。但在孙向东看来，智算中心的建设速度还远赶不上需求的增长速度。

统筹智算资源“集中力量办大事”

建设算力中心，首先需要解决的是算力基础设施——芯片的供应问题。当前，多家国内企业和机构正在做AI芯片的研发和生产，其部分产品已经在数据中心中应用，但本土算力芯片还不足以满足解决大模型训练所需的算力缺口。一方面，本土算力芯片的性能和产能还不足；另一方面，大模型训练需要的是千卡甚至万卡级别的超大规模计算集群，不同品牌的芯片组合在一起还需要解决兼容性、软件适配性和大规模集群可靠性的问题。调动千卡、万卡级别的计算集群，对集群搭建者提出了很高的技术要求，而这是个别大公司才有能力来实现的。

由此，为了尽可能多地解决智算的供需矛盾，孙向东提出了另一条发展思路：由政府或大企业出面，统筹全国的智算资源，“集中力量办大事”。

区别于普通计算，大模型需要的是千卡甚至万卡规模的计算集群。但是建设智算中心可用服务器供给有限，且配置成本高。因此，孙向东认为，尽可能提高现有资源的利用效率，就要实现算力中心的连接，建设成智算网络。这样一来，就可以把可用、符合大模型训练标准的算力基础设施连接起来，搭建成计算网络，当某计算任务完成后，这部分占用的资源就能够及时释放出来，提供给其他企业使用，以此满足并行大规模计算的需求。

2023年10月，工信部等六部门联合印发了《算力基础设施高质量发展行动计划》，将提升算力高效运载能力列为重点任务，称要探索构建布局合理、泛在连接、灵活高效的算力互联网，增强异构算力与网络的融合能力，通过网络的应用感知和资源分配机制，及时响应各类应用需求，实现计算、存储的高效利用。针对智能计算、超级计算和边缘计算等场景，开展数据处理器（DPU）、无损网络等技术升级与试点应用，实现算力中心网络高性能传输。

关于建设算力网络，孙向东补充道：“通俗而言，其含义就是，不论是谁投资、哪里提供的算力，都连接到一个平台上，做算力互联互通的交易。这与云计算的理念是有共通之处的，都是使算力在一个大的平台上流动，打破算力提供者、算力资源储备地等物理边界，使算力资源真正流动起来，实现收益最大化。”

放大+ 缩小- 默认o