这两天,大模型混战再起波澜。Meta公布最新大模型Llama 2,包含70亿、130亿和700亿三种参数类型,可免费用于商业或者研究。同时,Meta宣布与微软云服务Azure合作开发基于Llama 2模型的云服务,将进一步加速生成式人工智能技术的普及和大模型相关应用的落地。此外,高通也宣布与Meta合作,优化Llama 2在移动终端的执行。未来,Llama 2有望应用于各种领域,包括智能手机、汽车座舱和物联网终端等。此次开源,被认为是大模型发展的又一个“里程碑”,引发业界高度关注。
据介绍,相比于Llama 1预训练模型1.4万亿的训练token数,Llama 2预训练模型的训练数据提升了40%达到2万亿,且针对聊天用例进行的Chat模型精调训练数据超过100万人类标记数据,使用人类反馈进行强化学习从而提高模型的安全性。此外,对于大模型非常重要的上下文长度限制,Llama 2比Llama1翻了一倍达到4096字符,能处理更多信息。Llama 2模型在大多数基准测试中表现优于其他开源模型,包括编码、推理、知识、精通性测试等。不仅如此,Meta对实用性和安全性进行评估,认为Llama 2有希望成为闭源模型的替代品。
目前,Meta已在GitHub上开源了Llama 2预训练模型的代码和参数,并允许研究人员进行探索。同时,Meta也开放了Llama 2的商业使用许可,为基于Llama 2的大模型产品的涌现打开了大门。业内专家普遍认为,Llama 2开放开源免费使用,将加速大模型生态构建。
Meta CEO马克·扎克伯格将Llama 2称为大模型的“次世代”产品。他表示:“这是我们开源大语言模型的下一代产品。开源推动了创新,因为它让更多的开发者能够使用新技术。同时,软件开源意味着更多的人可以审查它,识别并修复可能存在的问题,从而提高了安全性。我相信如果生态系统更加开放,将会释放更多的进步,这就是我们开源Llama 2的原因。”
美国斯坦福大学基金会模型研究中心主任Percy Liang表示,像Llama 2这样强大的开源模型会对OpenAI构成相当大的威胁。尽管Meta在其研究论文中承认,Llama 2仍与GPT-4 存在较大的性能差距。“但对于许多应用场景来说,你不需要GPT-4。”Percy Liang表示,相较于一个庞大、复杂的专有模型,一个更可定制、更透明的模型——比如Llama 2,可能会帮助公司更快地创造产品和服务。
据了解,目前已有不少企业考虑将基础模型替换为Llama 2。Meta副总裁、人工智能部门负责人杨立昆公开表示,Llama 2将改变大语言模型市场的格局。“Meta此次推出开源且可商业化的Llama 2大模型,背后的目的其实是为了建立一个类似安卓的开放生态系统。”一位大模型创业公司的专家对记者分析说:“以开源的方式吸引大批开发者,建立生态系统,不仅能让Llama 2实现快速迭代,还能帮助Meta借此机会建立自己的技术壁垒,在目前的模型之争中抢占优势。不过这并不容易,最终生态是否能够成功搭建起来,还是要看市场和用户的选择。”
值得一提的是,一些大模型普遍面临的问题在Llama 2上依然存在。比如Meta没有公布用于训练Llama 2的数据集信息,也不能保证其中不包含受版权保护的作品或个人数据。另外,Llama 2同样存在产生虚假事实和攻击性语言的倾向等问题。
不过,如果将GPT的诞生比作大模型的“iPhone时刻”,那么这次Meta Llama 2的开源无疑将成为大模型的“安卓时刻”。曾经,开源让安卓阵营得以与iPhone分庭抗礼。今天,开源究竟能否让大模型走向生态开放的新阶段,让我们拭目以待。