“伴随着数字化、信息化、智能化迈上新台阶,一大批新业态、新模式如雨后春笋般涌现,数据量呈井喷式增长,倒逼存储产业加快迭代演进步伐。11月1日,在2023云栖大会上,阿里巴巴平头哥发布旗下首颗SSD(固态硬盘)主控芯片——镇岳510,标志着国内高端存储芯片市场再添一员“大将”。
企业级SSD市场迎来暖春
据国际权威机构Statista预计,到2035年,全球每年产生的数据量将达到2142ZB(十万亿亿字节),约为2020年的45倍。数据量的增长和数字经济的繁荣对更高的存储容量和存储速度提出要求。与此同时,云计算、人工智能、5G等新兴技术的快速普及,尤其是由ChatGPT掀起的生成式人工智能浪潮席卷全球,带动了高端存储需求的快速增加。
平头哥产品总监周冠锋在接受《中国电子报》记者采访时表示,企业端数据存储需求的大幅放量将带动企业级SSD存储量的快速增长。以AI大模型为例,它需要收集大量的原始数据去进行模型训练,配置数据需要大带宽的读取,所以底层需要更多的SSD设备予以支持。这对企业级SSD市场而言,无疑是一个很大的机遇。
“每年全球新增的数据量呈指数级增长,但这些新增数据量里面,其实只有不到10%的部分是会被实时记录和分析的,主要原因是底层存储设备不够快速、性价比不高。企业级SSD可以很好地满足数据爆炸带来的数据存储和实时分析需求,所以用量越来越多。”周冠锋说道。
作为SSD的核心控制中枢,主控芯片扮演的角色相当于PC的“中央处理器”。从技术层面看,企业级SSD主控芯片对部件的性能及稳定可靠性表现的影响占到整体部件影响因素的80%。因此最难之处不在于把芯片做出来,而是要不断追求其功能和性能的极致。
与用在手机、智能手表、平板电脑等电子设备上的消费级SSD主控芯片不同,企业级SSD主控芯片多用于数据中心、云计算、人工智能、大数据分析等领域,需要具备更快传输速度、更大单盘容量、更高使用寿命以及更高的可靠性。
如果说消费级芯片的压力是每天8小时运行,企业级芯片则要求7×24小时在线,且要连续工作5年,这对可靠性的要求完全是不一样的。同时,企业级芯片需要承担大量的应用访问,对于网络带宽、IOPS(每秒读写次数)等的要求也更高。此外,消费级芯片只要有读写能力就可以了,企业级SSD则需支持端到端的数据保护、虚拟化,以及一些新协议、新特性。”周冠锋对记者介绍道。
当前,随着下游需求的大幅增长,存储技术迭代加速,叠加老旧接口/协议的替代需求,国内企业级SSD市场竞逐焦点逐渐从消费级转向企业级。根据艾瑞咨询预测,2022年、2023年中国企业级SSD市场规模同比增长37%、28%,于2025年达到489亿元。目前来看,国内企业级SSD厂商中已产生了一些高水平的企业及产品,技术水平与全球水平基本处于并跑状态。
平头哥重磅发布“镇岳510”
作为阿里巴巴旗下专门从事半导体芯片研发的公司,平头哥的一举一动都备受业界关注。在2023云栖大会上,一块不足巴掌大的芯片再次成为焦点。平头哥自研的首颗企业级SSD主控芯片——“镇岳510”终于揭开了神秘面纱。
周冠锋介绍道:“‘镇岳510’采用平头哥自研芯片架构,支持PCle5.0主机接口和DDR5.0内存接口,同时内置了高性能的玄铁910 RISC-V多核CPU。整个自研架构大量采用了硬件加速模块,内置独创的前端IO自动化处理机制和高性能LDPC纠错算法,使其性能和能效比实现大幅提升,访问时延、误码率也达到了更低。”
谈及为何会选择这个时间点做此发布,周冠锋表示,这是市场趋势,也是本身业务发展的需求。“一方面,SSD差不多每隔三四年会进行一次产品迭代演进,我们推测2023年是SSD从PCle4.0到PCle5.0的一个重要演进节点,因此平头哥提前规划了这颗PCle5.0的底座芯片来应对市场趋势;另一方面,平头哥的业务重心在数据中心领域,数据中心芯片主要包括算力芯片和存力芯片两大类,之前平头哥已发布过算力芯片,如今又补齐了存力芯片的空白。”他说道。
虽然只是寥寥数语,周冠锋作为研发团队负责人的兴奋之情却是溢于言表。SSD主控芯片并不是一种标准化的设计,因此市面上的设计方案不尽相同。周冠锋指出,如果把过多的功能卸载,使用加速硬件来实现的话,那么这个芯片的灵活性就会比较差。但如果把过多的功能交由CPU软件来实现的话,那么它的运行速度则会变慢。因此,芯片设计是一个权衡的过程。
一颗小小的芯片,背后是技术团队一千多个日日夜夜的冥思苦想。“从2021年上半年立项到现在进入量产前的各种测试,我们在芯片架构的设计前期经过了大量的方案对比、测试,通过反复论证才选取一个相对平衡的方案。既能通过硬件加速获得高效,同时又把一些关键的软件任务仍然保留使用CPU来运行,从而获得灵活性。”周冠锋回忆道。
记者从平头哥了解到,“镇岳510”在业内实现了多项领先:性能方面,“镇岳510”每秒可处理高达340万笔IO,一枚镇岳510的性能,相当于1万块高性能HDD的性能总和,位居业界第一梯队;能效比方面,“镇岳510”每瓦功耗可提供42万笔IO访问,以一个部署了10万块SSD的数据中心为例,相比目前主流的PCIe 4.0SSD,“镇岳510”在相同的性能下,仅主控芯片即每年节省260万度电,减少二氧化碳排放2000吨,同样处于业界领先水平;时延方面,实现了业界领先的超低时延(4μs),比业界SSD降低30%以上;可靠性方面,UBER指标(未定比特率)已经达到了10-18,相当于每读取百亿亿笔数据,才可能有一笔数据纠错失败,误码率比业内标杆领先一个数量级。
云定义硬件时代悄然到来
云厂商自研芯片实际上已经不是一件新鲜事了。一方面,自研芯片可减轻其对第三方供应的依赖,在产业链上争夺更多话语权;另一方面,也有助于其在整个业务流程中做到效率与成本的最优化。云厂商将硬件和软件并行开发,并使用大规模的云来进行构建芯片所需的所有模拟,创新速度将会更快。而创新速度则将直接影响云厂商的核心竞争力。
“今天,我们已经进入了云定义硬件的时代。经过十几年的发展,云计算无论是规模还是应用场景都发生了很大的变化。IT硬件也在根据云的需求做出很大的调整、变化和演进。”阿里云盘古软硬一体数据节点团队负责人吴忠杰在接受《中国电子报》记者采访时感叹道。
云计算符合“冯·诺依曼计算技术架构”,数据从存储设备中取出,通过网络传送到计算单元,运算结果通过网络传输至存储设备中保存。算力、网力和存力共同构筑了云计算的基础。为了满足云上业务的迅猛发展,以CPU为代表的通用算力,以GPU、NPU为代表的AI算力,以指数级迅速增加;网络从25GE、100GE、200GE快速演进,并将进入400GE、800GE时代。同样,云计算也对存力提出了新的挑战与诉求。
比如,在传统系统方案中,SSD与存储系统分离设计。SSD负责底层闪存数据排布,但无存储语义而无法达到最佳排布;SSD负责后台任务,但无法判断最佳启停时机;而存储系统有存储语义却无法排布闪存数据,有最佳时机却无法启停SSD后台任务。上下的割裂给整个存储系统的性能与寿命带来了额外消耗,这被称为“SSD接口税”。
于是,ZNS协议应运而生,通过将盘内FTL层上移至存储系统,达到了存储系统与闪存特性的完美匹配,削减了“SSD接口税”。2021年5月,ZNS协议被收入NVMe规范2.0版本中,并得到了SPDK、Linux以及各设备商的支持。
此次平头哥发布的“镇岳510”可以实现ZNS协议,通过灵活的硬件表项加速保持了高IO性能,而Zone分区状态则交由玄铁910维护,保留了对新协议的灵活性。此外,镇岳510定制了Last Sector随机写功能,实现了小报文的多次反复下盘,简化了ZNS的应用难度。
由此可见,随着云技术进入深水区,云已经开始融入底层芯片设计。吴忠杰表示,从前期芯片设计阶段,云存储团队就和芯片团队针对需求定义进行了深度沟通。后面的开发阶段,双方团队也展开了端到端的协同。这让芯片设计的一些潜在问题提前暴露,尤其是针对云场景的问题得到了快速收敛,整体开发周期大大缩短。
向上定义软件、应用、服务,向下定义芯片、服务器等IT硬件,云计算正在开启新型基础设施建设的全新篇章。“我们不是为了去做硬件而做硬件,而是在做硬件的时候从全栈的角度思考,重新来定义硬件和软件之间的边界,探索边界之间如何通过相互协调让整体效能达到最优。这才是云计算非常重要的一点,也是做硬件非常重要的一点。”吴忠杰强调。