就在英伟达财报发布前夕,AI芯片初创公司Groq在社交媒体上引发了广泛讨论。Groq宣称其LPU(语言处理器)的推理性能是英伟达GPU的10倍,而成本仅为其1/10。
英伟达作为人工智能浪潮下的头部企业,近年来不乏“挑战者”对其发起冲击,那么此次LPU的表现如何?
TSP+SRAM的新路径
2月19日,Groq向用户开放了产品体验入口,其产品并非大模型,而类似于大模型加速接口。经由Groq加速推理的开源大模型带给人最直观的感受便是“快”。
根据记者测试,Groq的推理性能达到了每秒270个Token左右,网友测试每秒最高可达500Token,这个速度在ArtificialAnalysis.ai的测试中表现也十分突出。
LPU在LLM和生成式AI上的表现为何快于GPU?
Groq表示,LPU旨在打破LLM的两个瓶颈:计算密度和内存带宽。就LLM而言,LPU的计算能力强于GPU和CPU,这减少了每个单词的计算时间,从而可以更快地生成文本序列。此外,与GPU相比,打破外部内存瓶颈使LPU能够在LLM上提供更好的性能。
在架构方面,Groq使用了TSP(张量流处理)来加速人工智能、机器学习和高性能计算中的复杂工作负载。根据Groq公开技术资料,TSP是一种功能切片的微架构,芯片上具有诸多计算模式被软件预先定义好的功能片,其与数据流的关系如同工厂的流水线。“当数据经过切片时,每个功能单元可以选择性地截取所需数据并获取计算结果,并将结果传递回数据流,原理类似于装配线操作员(功能片)和传送带(数据流)。”Groq公司首席执行官Jonathan Ross比喻道。
TSP的源头是谷歌研发的TPU(张量处理器),值得一提的是,Ross就曾是谷歌TPU研发团队成员之一。
在存储性能方面,LPU另辟蹊径,有别于传统算力芯片对于SK海力士等存储厂商所产HBM(高带宽存储)的依赖,转而使用了易失性存储器SRAM,这也省去了将HBM置于芯片时对台积电CoWoS S封装技术的需求。SRAM通常用于CPU的高速缓存,由于不需要刷新电路来保持数据,因此可提供高带宽和低延迟。
可以说,在张量处理器上的技术积累加上别样的存储器选择,共同造就了这个推理的效率“怪兽”。
实现落地仍有阻碍
尽管在Groq官方口径中,以“快”著称的推理性能确实优于大模型普遍生成内容所使用的GPU,但是从实验室数据到真正流入市场参与竞争,还有许多问题需要解决。
首先,LPU在市场最关心的成本问题上众说纷纭。据Jonathan Ross所说,在大模型推理场景中,Groq LPU芯片的速度比英伟达GPU快10倍,但价格和耗电量都仅为后者的1/10。
看似极高的性价比,实际情况还有待推敲。原阿里技术副总裁贾扬清在社交媒体上算了一笔账,因LPU的内存仅有230MB,在忽略推理时内存损耗的情况下想运行LLaMA2-70b这样的大语言模型可能需要572张LPU,总购卡成本高达1144万美元(按单卡标价2万美元计算)。相比之下,8张英伟达H100的系统在性能上与Groq系统相当,但硬件成本仅为30万美元。
其次是Groq LPU的适用范围能否跟上AI应用的发展速度还是未知数。随着Open AI在2月初发布AI视频生成平台Sora,生成式人工智能走向新的阶段。LPU虽然能实现对Token这一单元的快速处理,但是面对Sora的最小计算单元Patch,其处理效果如何还未可知。有观点认为,LPU在架构上有所创新,但是仅针对特定算法、特定数据结构来设计芯片,在未来频繁改变的AI发展节奏中可能会“昙花一现”。
能否成功挑战英伟达?
再回到“挑战英伟达”的话题上,在Groq所展现出来的解决方案的背后是通用芯片与专用芯片的路径分歧。Groq芯片专注于推理,从测试结果上看能够达到令人满意的“秒回”效果,但是这要依赖对大模型的前置训练环节,换言之,LPU的应用场景搭建,需以至少一个完成且开源的大模型为前提。
英伟达作为GPGPU(通用GPU)的头部生产企业,其A100和H100能够覆盖大模型训练和推理的全部流程,而下一代芯片H200在H100的基础上将存储器HBM进行了一次升级,为的也是提升芯片在推理环节中的效率。在拥有牢固开发者生态的英伟达眼中,强化推理能力也是巩固自身通用GPU市占率的手段。
目前看来,英伟达GPU的交付周期与全球云服务厂商的算力缺口仍存在一定不匹配,英伟达正在积极解决这一问题,与此同时,Groq的LPU能否分得一块蛋糕,还需等待大规模流片之后再看市场反响。
2023年8月14日,Groq宣布三星电子将为自己生产4nm芯片,首批LPU将于2024年下半年量产。Ross表示,在两年后Groq能够部署100万台LPU。