• 官方微信公众号
  • 电子信息产业网
  • 微博
第08版:半导体

Arm终端计算子系统 赋能端侧AI

本报讯 记者张心怡 实习记者夏冬阳报道:日前,Arm围绕终端计算子系统(CSS)召开了技术分享日活动,分享了终端CSS在性能、效率和可扩展性方面的最新技术特性及实现细节。据悉,Arm终端CSS将成为第一代采用3nm工艺节点的安卓SoC的一部分,从而为芯片设计提供功耗、性能和面积(PPA)优势。Arm终端事业部产品管理总监Steve Hopper表示,Arm终端CSS涉及从IP到软件的整个平台,是Arm面向安卓最快的计算平台。

记者从技术日活动上了解到,终端CSS采用最新Armv9.2 CPU集群,其中包括Arm目前性能最高的Cortex-X925 CPU、效率最高的Cortex-A725 CPU和更新的Cortex-A520 CPU。从具体的工作负载来看,通过集群的升级,相比去年基于FPGA实现的安卓旗舰配置,终端CSS将应用启动提速约33%、网页浏览速度加快 60%、光线追踪等游戏相关性能平均提升30%,有望为用户提供更加出色的浏览体验。适用于安卓系统的CSS参考软件栈搭配固定虚拟平台(Fixed Virtual Platform,FVP),则有望加速流片前的软件开发。

Steve Hopper表示,为满足高端移动体验市场需求,新一代终端CSS主要从四个关键领域布局产品升级方向:一是突破性能边界以处理要求苛刻的安卓实际工作负载;二是针对生成式AI以及更广泛的AI/ML(机器学习)、计算机视觉工作负载提高性能;三是持续专注于实现两位数的系统能效提升;四是扩展平台以获得更高的性能点,满足新一代AI PC设备的需求。

当前,AI正在重新定义移动设备领域的方方面面,消费者期望AI技术能够被广泛应用于各种价格区间的产品中。据悉,Arm正致力于为各类性能和成本需求的终端产品提供AI功能,终端CSS便是为各类消费电子设备打造的新一代AI体验专用计算平台。在该平台中,Cortex-A725是提供高能效AI吞吐量的主要处理器,主要面向成本更敏感的大众消费电子市场。经优化的Cortex-A725可以高面积效率实现生成式AI工作负载的部署。与Cortex-A720相比,Cortex-A725的性能效率提升了35%,能效提升了25%。

此外,终端CSS中的DSU-120已针对新一代用例和消费电子设备体验进行了强化,引入了新的功耗模式,并保留了为高性能用例扩展到14个核心的选项。新的低功耗模式(例如中高切片断电模式和Quick Nap)和增强功能分别支持低强度和高强度的AI工作负载,包括生物特征识别、语音转文本、AI智能摄像头、内容创建和基于ML的AAA游戏。与上一代全面计算解决方案(TCS23)中的DSU-120相比,进一步降低了功耗和面积,加上通过Cortex-A725和更新后的Cortex-A520实现的面积和功耗优化,为主流设备提供了灵活的CPU集群配置组合,这将有助于在各类低成本的消费电子设备上提供优异性能和AI功能,确保日常设备用户能够获得高级的AI体验。

安谋科技(Arm China)市场总监王刚表示,在Arm终端CSS中,AI具有异构性。由于CPU的可编程性和灵活性都非常高,许多AI负载运行在CPU上。但某些工作负载,如图像分割或物体检测,更适合在GPU上运行。

与此同时,为进一步加速AI发展,Arm终端CSS还通过结合新的KleidiAI和KleidiCV库为端侧(AI)和计算机视觉(CV)工作负载提供支持。据了解,该软件库可被直接嵌入到热门的AI框架中,开发者可以轻松启用Arm CPU的AI功能,从而快速构建AI应用。“KleidiAI和KleidiCV针对Arm CPU架构以及微架构进行优化,可支持面向未来的SVE2和SME2指令集,同时也没有放弃传统的Neon,从而能够在广泛的设备上达成最佳性能,让开发者体验到Kleidi带来的性能提升。”安谋科技(Arm China)开发者生态高级经理李陈鲁表示。

2024-07-02 1 1 中国电子报 content_10693.html 1 Arm终端计算子系统 赋能端侧AI /enpproperty-->