近日,美国国家工程院外籍院士、粤港澳大湾区数字经济研究院创院理事长沈向洋在2024 IDEA大会上分享了其对人工智能“三件套”(算力、算法、数据)的最新思考。他表示,在技术大爆发时期开展创新,对技术的深度理解尤为重要。站在商业的视角,新技术快速冲入市场,则意味着技术需要理解需求。技术要在持续不断的反馈和创新中与市场完成匹配。
算力需求持续增长
整个计算行业在过去四五十年的发展中,最重要的一件事情是算力的不断提升。根据英特尔创始人之一戈登·摩尔提出的摩尔定律,当价格不变时,集成电路上可容纳的元器件的数目,每隔约18~24个月便会增加一倍,性能也将提升一倍。或者换句话说,性能每2年翻一倍,价格下降一半。
然而过去这十几年随着人工智能的蓬勃发展,特别是深度学习的发展,对算力的需求显著提高。英伟达提出了以其创始人黄仁勋的名字命名的“黄氏定律”,认为GPU(图形处理器)将推动人工智能性能实现逐年翻倍。
“从以前的百亿级,到现在的千亿级、万亿级,大模型参数规模会越来越大,对训练的要求越来越高。要训练这样的模型,数据量要增长,性能要随之提升,对算力的需求也会呈现出‘平方级’的增长。”沈向洋感慨道。
同时,沈向洋评论称,英伟达是过去十几年中,信息技术和人工智能行业最了不起、最成功的一家公司之一,它硬生生把自己从一家做硬件的乙方公司做成了甲方。“大家对英伟达的未来充满信心,其中最重要的是看到了行业对算力的需求。这也解释了为什么过去十年英伟达的市值涨了300倍。”沈向洋说道。
人工智能发生范式转移
沈向洋表示,从2017年Transformer架构(一种基于注意力机制的深度学习模型架构)出来开始,人工智能、深度学习、大模型基本上是沿着该架构这条线“堆”数据、“堆”算力。OpenAI 推出GPT4之后,一些新的突破性技术陆续推出,包括多模态GPT-4o。最新的o1(OpenAI最新发布的大语言模型)推理学习能力展现出的人工智能的范式转移非常值得我们认真思考。
GPT系列做的事情是通过预训练来预测“下一个Token(吞吐量)”。技术背景是把所有的数据聪明地压缩,并能很快给出答案,只要问一句话就能得到一个结果。而新的范式变革是增强学习,即可以自行改善的学习,在给出答案之前还有一个后训练、后推理的过程。
实际上,增强学习并不是一个新鲜事物。AlphaGo下围棋就是用这种增强学习的方法打败人类世界冠军的。不过新的增强学习“打法”更为通用。以前做一个系统只能解决一个问题,比如下围棋或者做其他工作。今天o1不仅可以做数据、做编程,还可以做物理、做化学等。
“我觉得接下来这几年,算法沿着增强学习这条道路走下去,一定会有令人惊艳的全新突破。”沈向洋表示。
未来大模型训练需要合成数据
公开数据显示,GPT3的训练用了2T(即2万亿Token)的数据。GPT4大概用了20T(即20万亿Token)的数据,相当于今天能找到的几乎所有清洗过的互联网数据。而GPT5预计要比GPT4有长足的进步,预测数据量大概会达到200T(即200万亿Token)的规模。
为了进一步阐释大模型训练所需的数据量规模,沈向洋列举了几个例子:1万亿数据相当于500万本书,或者20万张高清照片,抑或是500万篇论文。一个人从小学、中学、大学到念完大学的时候,真正学到的东西相当于1000本,也仅仅是0.00018T的数据。人类历史上所有的书加起来大概也只有21亿Token的数据。
“现在互联网上已经找不到那么多高质量的数据了,人工智能向前发展要造数据、合成数据,这有可能带来大模型创业的下一个‘百亿美金’问题,就是怎么来合成数据。”沈向洋表示。
GPT系列模型的训练依靠的是互联网语料数据,比如文本、图片、音频、视频等多模态数据,o1的训练则需要强逻辑性的数据,很多数据是网上没有的,需要进一步优化的合成数据。
沈向洋表示,我们不能盲目造数据,而是需要有理有据、有逻辑关系的数据。要先采集真实数据,建一个语境图谱,然后再合成数据,把这些合成数据放进大模型里继续做预训练和推理。
沈向洋透露,IDEA DataMaker(数据合成平台)知识驱动大模型数据合成技术已经可以将模型推理准确率提升25.4%以上,平均节约成本达85.7%。同时,IDEA大模型合成数据加密训练技术可以打破数据孤岛,助力私域数据的安全流通。相较于基础模型,该技术可将大模型专业推理能力提升12.8%~24.1%。