英特尔发布大型神经拟态系统Hala Point 或大幅降低大模型训练能耗

第08版：半导体

上一版

放大+ 缩小- 默认o

英特尔发布大型神经拟态系统Hala Point 或大幅降低大模型训练能耗

图为Hala Point系统集群

本报讯记者姬晓婷报道：北京时间4月18日凌晨，英特尔发布了代号为Hala Point的大型神经拟态系统。Hala Point基于英特尔Loihi 2神经拟态处理器打造，旨在支持类脑AI领域的前沿研究，解决AI目前在效率和节能等方面的挑战。Hala Point在英特尔第一代大规模研究系统Pohoiki Springs的基础上改进了架构，将神经元容量提高了10倍以上，性能提高了12倍。

Hala Point系统由封装在一个六机架的数据中心机箱中的1152个Loihi 2处理器（采用Intel 4制程节点）组成，大小相当于一个微波炉。该系统支持分布在140544个神经形态处理内核上的多达11.5亿个神经元和1280亿个突触，最大功耗仅为2600瓦。Hala Point还包括2300多个嵌入式x86处理器，用于辅助计算。

在大规模的并行结构中，Hala Point集成了处理器、内存和通信通道，内存带宽达每秒16PB，内核间的通信带宽达每秒3.5PB，芯片间的通信带宽达每秒5TB。该系统每秒可处理超过380万亿次8位突触运算和超过240万亿次神经元运算。

在用于仿生脉冲神经网络模型时，Hala Point能够以比人脑快20倍的实时速度运行其全部11.5亿个神经元，在运行神经元数量较低的情况下，速度可比人脑快200倍。虽然Hala Point并非用于神经科学建模，但其神经元容量大致相当于猫头鹰的大脑或卷尾猴的大脑皮层。

Loihi 2应用了众多类脑计算原理，如异步（asynchronous）、基于事件的脉冲神经网络（SNNs）、存算一体，以及不断变化的稀疏连接，以实现能效比和性能的数量级提升。神经元之间能够直接通信，而非通过内存通信，因此能降低整体功耗。

在执行AI推理负载和处理优化问题时， Loihi 2神经拟态芯片系统的速度比常规CPU和GPU架构快50倍，同时能耗降低至原来的1%。早期研究结果表明，通过利用稀疏性高达10比1的稀疏连接和事件驱动的活动，Hala Point运行深度神经网络的能效比高达15TOPS/W，同时无须对输入数据进行批处理。批处理是一种常用于GPU的优化方法，会大幅增加实时数据（如来自摄像头的视频）处理的延迟。尽管仍处于研究阶段，但未来的神经拟态大语言模型将不再需要定期在不断增长的数据集上再训练，从而节约数千兆瓦时的能源。

神经拟态计算是一种借鉴神经科学研究的全新计算方法，通过存算一体和高细粒度的并行计算，大幅减少了数据传输。研究显示，在运行传统深度神经网络时，该系统能够每秒完成2万万亿次（20petaops）运算，8位运算能效比达到了15TOPS/W，相当于超过了基于GPU和CPU的架构。

目前，Hala Point是一个旨在改进未来商用系统的研究原型。英特尔预计其研究将带来实际技术突破，如让大语言模型拥有从新数据中持续学习的能力，从而有望在AI广泛部署的过程中，大幅降低训练能耗，提高可持续性。

放大+ 缩小- 默认o