文章

11月12日，由工业和信息化部、江西省人民政府共同主办的2022世界VR产业大会在南昌开幕。在开幕演讲中，科大讯飞股份有限公司董事长刘庆峰在题为“以人工智能赋能虚拟现实产业”的演讲中表示，当前，人工智能与虚拟现实技术呈现融合发展态势，两者有着天然的联系，已经呈现出你中有我、我中有你的趋势。

“人工智能与虚拟现实的结合具有天然的源头相关性。数字经济是未来经济的重要引擎，虚拟和现实相结合、线上和线下相结合是数字经济发展的大势所趋。”刘庆峰认为，人工智能可以为虚拟现实深度赋能，智能运算让机器运算能力和存储能力远超人类，感知让计算机能看会说，像人一样自如交流，让机器具备认知的能力，能理解、会思考，具备学习推理和决策的能力。

在刘庆峰看来，人工智能技术是虚拟现实的重要支撑，助力虚拟现实产业发展。当前，人工智能与虚拟现实技术呈现融合发展态势，两者有着天然的联系，已经呈现出你中有我、我中有你的趋势。

人工智能对虚拟现实的赋能作用体现在三个方面：一是虚拟对象智能化，虚拟人的智能行为将更多地出现在各种虚拟环境和虚拟现实应用中；二是交互方式智能化，智能交互将综合视觉、听觉、嗅觉等感知通道，带来全新的交互体验，让虚拟现实真正“化虚为实”；三是虚拟现实内容研发与生产智能化，人工智能将提升虚拟现实制作工具、开发平台的智能化及自动化水平，提升建模效率和虚拟现实内容生产力。

人工智能与虚拟现实两种技术的融合发展将开辟新一代信息技术产业新的增长源泉。

智能人机交互是虚拟现实的核心能力，特别是在人工智能与元宇宙结合方面。元宇宙需要更智能的人机交互，用户需要在未来的虚拟世界中体验到与真实世界一样的感受，因此需要人工智能在交互方面有所突破。

“在虚拟现实技术中，实现智能人机交互有三个关键要素：多模感知能力、深度理解能力和多维表达能力。” 刘庆峰指出，这三个要素决定“听得懂、看得到、触摸得到”的多模感知能力，能在虚拟世界和真实世界中一样有真实的感知，面对物体、人物与环境能进行深度理解，甚至可以在理解之后进行多维表达，以完成相关的工作。

据刘庆峰介绍，在多模感知能力方面，科大讯飞的语音交互技术可以把听到的语音转变为文字，即使每个人的声音不一样，它也能在自然世界和虚拟世界中通过语音快速感知。

在语音识别和图文识别技术上，基于科大讯飞最新的算法突破，可以实现对文字的识别和对物体的理解，再加上图像识别后，就可以把语音、手势、肢体语言以及面部表情等融合在一起。

当前，以语音为辅，以肢体语言、动作为交互为主的时代正在到来。科大讯飞把多模态识别系统引入进来，可以在语音识别的基础上，结合人脸识别和唇语识别，把多种维度的感知结合成为多模态系统，显著提升复杂场景识别效果。

在深度理解能力方面，科大讯飞的认知智能技术不断突破并实现规模应用。刘庆峰举例说，科大讯飞阅读理解系统在Squad比赛中的效果首次超过人类平均水平；在OpenBookQA科学知识推理挑战赛中，科大讯飞单模型首超人类推理能力的平均水平；讯飞智医助理在国家临床执业医师考试笔试中取得456分，超过96.3%的人类医师考生；科大讯飞的作文评阅技术达到人工专家水平，2022年已经服务于12个省的高考作文阅卷和雅思作文阅卷。

在多维表达能力方面，刘庆峰表示，科大讯飞的语音合成技术已经实现从超过普通人发音水平到个性化高表现力。虚拟主播在主流媒体和各类场景中得到广泛使用。

此外，科大讯飞通过个性化真人捏脸系统，可以快速实现虚拟人生产，如虚拟客服、虚拟医生、虚拟老师、虚拟员工，以及虚拟志愿者、虚拟偶像等。