在需求增长的同时智能算力供给不足,是当前“算力荒”的核心矛盾。研究机构数据显示,在大模型训练需求的带动下,智能算力的增长速度将远超通用算力。全球智能算力规模将在2027年达到1117.4EFlops,大致相当于2023年的2.7倍、2020年的15倍。那么,如何解决“算力荒”?
统筹智算资源“集中力量办大事”
当前的算力需求共三种:通用算力、智能算力和超算算力。算力供应不足,更多指代的是智能算力。对应这三类算力需求的,是以不同类型芯片组建的算力基础设施。通用算力以CPU芯片输出的计算能力为主,智能算力以GPU、FPGA、AI加速芯片等输出的人工智能计算能力为主,超算算力以超级计算机输出的计算能力为主。
“通用算力是不缺的,我们现在缺的是能够满足大模型训练需求的智能算力。”鹏博士集团副总裁孙向东在接受《中国电子报》记者采访时表示。模型训练完成后,可以通过压缩、系数化等处理方式放在较低端的算力芯片上做运营和服务,满足这类需求的算力芯片并不少。
“自ChatGPT出现以来,我们能够直观感受到智算需求的增长。今年被认为是大模型真正实现行业应用的一年,金融、医疗等诸多行业都在尝试用大模型解决问题。”孙向东说道。
与满足通用算力的传统数据中心相比,智算中心存在诸多不同。这不仅体现在所需的芯片种类上,还体现在服务器机柜的组件、功耗等诸多方面上。传统数据中心的业务以存储为主,其功耗为4~6千瓦时;智算中心的业务则以高性能计算为主,其功耗可能达到12千瓦时甚至更高。不仅需要配备高密度机柜,整个机房的布局也要配合需求进行调整。
为满足市场的强需求,符合人工智能应用需要的智算中心正在建设。但在孙向东看来,建设速度还远赶不上需求增长速度。当前,为了尽可能多地解决智算的供需矛盾,孙向东表示,要由政府或大企业出面,统筹全国的智算资源,“集中力量办大事”。
区别于普通计算,大模型需要的是千卡甚至万卡规模的计算集群。但建设智算中心,一方面,可用服务器供给量有限,且配置成本高。因此,孙向东认为,要想尽可能地提高现有资源的利用效率,就要实现算力中心的连接,建设成智算网络。这样一来,就可以把可用、符合大模型训练标准的算力基础设施连接起来,搭建成计算网络,当某个计算任务完成后,这部分被占用的资源就能够及时释放出来,提供给其他企业使用,以此满足并行大规模计算的需求。
研制超级计算机应对大模型训练问题
在超级计算机研制方面,我国已经居于全球领先地位。当前,国家网络已经接入八个国家超级计算中心,配备有世界上首台峰值运算性能超过每秒十亿亿次浮点运算能力的超级计算机——“神威·太湖之光”、峰值性能达每秒4700万亿次的“天河一号”高效能计算机系统、系统持续性能为每秒796万亿次的神威蓝光超级计算机等诸多性能卓越的超级计算机。
在超算领域,我国有几大优势:具有数十万处理器的搭建经验,具有几大超级计算机供应品牌,具备高速网络搭建和运营能力、绿色液冷技术,具备保证超级计算机运行可靠性的能力。此外,国内还有经过几十年发展积累的超级计算机领域的丰富专业人才。
由此,中国科学院计算技术研究所研究员张云泉表示,要解决算力荒,可以利用我国在超算领域过去几十年的积累,利用超级计算机技术研制大模型专用超级计算机,以争取时间应对我国因智算资源受限而可能出现的大模型训练落后问题。
超级计算机在计算某种特定任务时具有速度优势。“我们的超级计算机设计的是64位精度,过去主要用于解方程,但大模型训练主要采用的精度是16位。”张云泉表示,“超级计算机可以把大模型作为具有挑战性的应用来进行针对性研制,从技术实现来说是可行的,通过优化提高效率、性能,是可以实现的。”
张云泉表示,当前的超级计算机不能直接用于大模型训练,需要进行优化和定制。要“向下兼容”,也就是由支持64位为主改为支持16位为主,其软件和算法也要相应地进行优化和改进。
掌握智算资源的企业将享受算力红利
在智算资源紧缺的情况下,市场上出现了由于掌握算力稀缺资源而颇受市场青睐的企业。例如以印刷为主营业务的鸿博股份,因为搭上英伟达概念,其股价在半年时间内涨幅超过500%。
面对智算资源供应不足的情况,有哪些类型业务将会受到市场关注?
张云泉认为,有三大类公司及其业务将获得发展机遇。第一类是超算基础设施供应商,以曙光、天河、神威为代表,此类公司对算力生态建设比较了解,同时掌握用户需求,对如何搭建大规模计算集群具有技术经验,可为智算提供资产服务。第二类是电信运营商,具有网络建设和调整网络带宽的优势,可通过配备高端资产,依托全国数据资源调配优势,承担算力中心资源调配任务。第三类是能源公司,具有来自光伏等新能源的电力资源,可以在搭建新能源基地的同时配套建设算力中心,具有智算中心所需要的能源优势。
孙向东认为,有两类企业将乘大模型训练之势实现增长。一类是国产人工智能芯片供应商,但此类企业还需要加强技术研发,一方面提升芯片性能,另一方面完善软件生态;另一类是为大模型商业应用提供底层支撑和运营服务的企业。
当问及我国该如何看待当前火热的大模型训练全球竞争时,张云泉表示,在人工智能市场的国际竞争中,我国具有人口基数大、人才资源丰富、新能源产业发展势头强劲等优势。当大模型训练所需的算力越来越大,能源将可能成为制约计算规模继续增长的瓶颈,在那时,我国所具备的绿色能源比较优势便会体现出来。但他也提醒,要警惕发展大模型急功近利的问题:“很多国内公司着急变现,包括投资基金和专注于大模型训练、推理的厂商,很多不愿意追求更高的技术水平,产品稍微能用就去以模型变现、不再继续训练了。这种想法要不得。”