9月5日,腾讯2024全球数字生态大会召开。大会期间,腾讯云正式发布AI infra品牌“腾讯云智算”,整合腾讯云在HCC、星脉网络、AIGC云存储等优势单项产品能力,为用户提供多芯兼容、灵活部署的智算能力。腾讯云副总裁沙开波表示,腾讯云智算目前已经服务了国内90%的大模型厂商,也帮助了一大批IDC(数据中心)厂商向AIDC(智算中心)厂商转型。
自ChatGPT点燃市场热情、各大厂商和资本竞相入场以来,仅仅一年多的时间,生成式AI便已从技术走向实践,逐渐融入各行各业,成为数字化转型的重要驱动力。Gartner对于未来生成式AI的预测是,到2026年,超过80%的企业都会接入生成式AI或大模型,然而这一比例在2023年年初还不到5%。
“尽管目前生成式AI仍处于一个相对早期的发展阶段,商业化落地还需进一步探索,但从长期来看,生成式AI一定会出现一个大爆发的‘奇点’。”沙开波指出。他认为,生成式AI的快速兴起驱动云基础设施建设进入一轮全新的周期。
众所周知,生成式AI背后需要依靠强大的AI模型和海量数据,其所需要的云服务算力成本十分庞大。以ChatGPT为例,用户每次与ChatGPT互动,产生的算力云服务成本约0.01美元,如果使用总投资30.2亿元、算力500P的数据中心来支撑ChatGPT的运行,至少需要7~8个这样的数据中心,基础设施的投入都是以百亿元计的。AI大模型无疑为整个云基础设施建设带来了巨大的市场空间。
“我们的很多业务增量都来自于智能计算这一块。除了GPU之外,围绕GPU的一些存储、网络,也是一块很大的增量。”沙开波坦言。对于大模型训练场景来说,算、存、网是一体的。大模型厂商在模型训练和推理场景中,对云基础设施的高性能、高稳定性、可运维、应用性等方面的要求更高,这就要求服务商不断打磨自身产品能力,从计算、网络、存储等方面,包括一些软件框架层面的优化,以更好地去满足这些AI客户,尤其是大模型厂商的业务需求。可以预见,生成式AI或将推动云基础设施的整体升级。
模型越来越大呼唤更大规模计算集群
伴随生成式AI的兴起,业内出现一个趋势:模型参数规模越来越大,从百万级逐步进入千万级,甚至是万亿级。而参数越大,训练所用的计算资源就越多,这些大模型的训练动辄需要使用成千上万张GPU卡去做算力支撑,引发模型厂商的算力焦虑。
沙开波指出,智能算力存在比较典型的“木桶短板”效应,算力的提升不能光靠“堆卡”,而是要让计算、存储、网络以及上层的框架等各个环节全面协调配合,才能打造出一个高性能、高带宽、低延迟的计算集群。
以网络能力为例,千亿、万亿参数规模的大模型,训练过程中通信占比最大可达50%,传统低速网络的带宽远远无法支撑。同时,传统网络协议容易导致网络拥塞、高延时和丢包,而仅0.1%的网络丢包就可能导致50%的算力损失,最终造成算力资源的严重浪费。
为解决网络性能问题,各个厂商推出了一系列相关产品和解决方案。其中,腾讯云星脉网络具备3.2T通信带宽,可支持10万卡的超大计算规模。据悉,其能提升40%的GPU利用率,节省30%~60%的模型训练成本,为AI大模型带来10倍通信性能提升。
数据显示,在稳定性和性能上,腾讯云的集群千卡单日故障数已经刷新到0.16,是行业水平的1/3;1分钟就能完成万卡checkpoint写入,数据读写效率是业界的10倍;千卡集群的通信时间缩短到6%,是业界的一半。通过整合软硬件技术能力,腾讯云智算集群从机器上架到开始训练可以做到只需1天,相比业界以月为单位也大为缩短。
“我们在做的是在规模比较大的计算集群里面,把卡的利用率尽可能做到极致,减少闲置算力就是减少用户成本。”沙开波表示。据他透露,某模型厂商通过使用腾讯云智算大模型训练集群解决方案将千卡一年的模型训练成本降低了2000万元。
智算资源短缺“一云多芯”成为主流选择
当前,智算中心被视为如同水和电一般的“新基建”,在全国各地落地开花。据赛迪顾问统计,截至2024年上半年,国内已经建设和正在建设的智算中心超过250个。智算中心招投标相关事件791起,同比增长高达407.1%。最新统计显示,截至5月底,全国规划具有高性能计算机集群的智算中心已达十余个。从算力规模来看,我国智能算力在算力总规模中的比重超过了30%。
尽管智算中心建设如火如荼,但智算资源的供需矛盾依然存在。“智算中心建设方通常手里有卡,也有硬件资源。但是有卡不等于有算力,有算力不等于有模型,有模型也不等于有应用。有了卡和硬件,不代表大模型的训练、推理或者AI的应用就可以直接‘跑’出来了,还需要配套的软件能力,要能够把所有资源高效管理和调度起来,还得找到最终应用场景或者终端客户。”沙开波分析道。
为弥合智算资源“供”与“需”之间的沟壑,“一云多芯”成为一个主流选择。过去,智算集群中的多个模型训练任务往往是单一厂商芯片服务于单一任务,不论是不同厂商芯片算力切分、芯片间通信效率或是根本的模型训练效率问题,都使得算力焦虑在硬件差异之下被无限放大。
而云平台可以将服务器芯片等硬件封装成标准算力,无论底层是x86与ARM指令集的并存、x86或ARM不同厂商架构间并存、不同GPU或DPU服务器并存,抑或是计算节点与存储节点不同芯片架构并存,都能给客户提供体验一致的云计算服务。比如,腾讯云智算平台便采用了“一云多芯”架构,可以适配、管理、调度多种CPU和GPU芯片,能够有效降低供应链风险,同时满足不同业务对于不同算力的需求。
“生成式AI的兴起给整个云基础设施建设提出了更高的要求,我们希望能够整合高性能计算、高性能存储、高性能网络等各方面的能力,为企业用户提供集‘算、存、网、数’于一体的技术底座,帮助大家加速释放AI生产力。”沙开波说道。