
图为京东言犀数字人应用于电商直播
从去年4月以京东集团创始人刘强东形象制作的“采销东哥”数字人首次亮相京东直播间,到如今京东言犀数字人已化身9000多家品牌直播间的“常驻员工”,支持商家一键开播,带动成交超140亿元……一年来,在京东云技术的支撑下,京东正用一套AI技术,让数字人告别动作僵硬和机械感,变成能说会道、能变装会接梗的“AI打工人”,创造出实实在在的商业价值。而这套成果,也让京东一举斩获中国智能科学技术最高奖——吴文俊人工智能科学技术奖的特等奖,这也是本年度唯一的特等奖。
实现多模态交互三大突破
2024年4月,“采销东哥”数字人分身空降京东APP直播间,不仅复刻了刘强东本人标志性的宿迁口音、搓手指习惯,还能分享烹饪心得,实时解答产品技术参数。这场直播首秀吸引了4000万观看量。
此后,京东言犀数字人仿佛开启了“创意开挂”模式,各种超乎想象的玩儿法接连上演:在直播间里现场试妆、双人互动逗捧哏、总裁上阵、模特走秀、抱着玩偶坐播、现场品酒……令人目不暇接。现在,京东言犀数字人的智能写稿采用率达90%,零修改比例高达75%,可实现直播脚本的工业化制作,单条文案生成时间压缩至6秒,较传统人工创作效率(30分钟/条)提升300倍,真正实现“一键开播”。
然而,几年前的数字人受限于低拟人度,动作僵硬、表情不自然,再加上高成本的困扰,常常因为那股“一眼假”的机械感,应用场景受到限制。
“那时,数字人制作高度依赖人工3D建模与动作捕捉技术。核心局限在于高成本、低效率。”京东探索研究院院长、京东科技人工智能业务总裁何晓冬在接受《中国电子报》记者采访时颇为感慨地说道。例如,动作捕捉设备单价超过百万,制作1分钟的数字人动画动辄耗费数百小时的渲染时间。如此高昂的成本与漫长的工期,注定了数字人只能是影视特效、游戏等高端场景的“专属专利”。
2024年,京东言犀凭借多年技术积累,在“多模态交互式数字人”上实现了三大技术突破:一是实现了低成本、高保真的人体建模技术,解决了人体建模成本高、观感差难题;二是提出了语义一致多模态应答技术,解决了多模态语义难对齐、应答弱难题;三是提出了多模态自然化行为生成技术,解决了多样化行为难协调、交互假难题。
“在多轮对话中,用户停顿是需要解决的常见问题。”何晓冬向记者举例说明,如果用户还没说完话,数字人就判断用户说话结束并开始回答,会出现语意理解不全、回答不精准的问题;反之,如果用户说完话很久,数字人才判断识别结束并开始回答,又会大大影响用户体验。为保障多轮对话流畅自然,京东言犀通过VAD(语音活动检测)识别出静音时长,判断用户是否已经说完话,并进行回答,如果是“嗯”“啊”这样的语气词,数字人则不会轻易打断用户。
此外,数字人还需要具备情感判断能力,识别说话人情绪,匹配输出对应的语音。基于与不同人、不同场景中的对话,京东言犀可根据知识库中的语义挖掘,对说话人的喜怒哀乐做出判断,然后匹配相应情感的回答话术。就拿“我知道了”这句话来说,可能是用户高兴地说“我知道啦”,此时对话可以自然结束;但也可能是用户生气地说“我知道了!”,这种情况下,数字人就需要进一步进行情绪安抚,展现出强大的情感理解与应对能力。
何晓冬告诉记者,目前,数字人直播的成本相较真人直播已经大幅降低,但仍存在真人采集成本高、动作局限、泛化性不足、适配场景单一、跨语言和多角色需求难以实现等局限。”
近期,京东言犀数字人技术再度进化,今年发布了数字人通用的基座大模型,通过语音合成大模型LiveTTS及通用数字人大模型LiveHuman,仅需输入自然语言或1秒视频/照片,即可生成4K超高清、100%口型匹配的数字人,彻底告别了数字人制作对线下拍摄、建模与耗时训练的依赖。这将为广告素材批量生成、新媒体投放、个人IP打造等场景应用拆掉技术藩篱,走向工业级应用。
从“采销东哥”到产业普惠
据统计,京东言犀多模态数字人率先在电商直播场景突破规模化应用落地,已累计服务超9000家商家,带动成交超140亿元,并逐步在金融客服、文旅、电商等特定场景应用起来。
数字人需适应不同行业场景的差异化需求,京东言犀数字人如何在技术通用性与垂直领域定制化之间取得平衡?
“交互自然度、多场景适应性、成本与部署门槛是影响数字人产业应用的几大关键因素。言犀全链路AI生成数字人技术并非简单的效率优化,而是重新定义了数字人的生产逻辑,使其成为‘算力驱动型’的标准化服务。”何晓冬向记者解释道。
在他看来,大模型的价值在于在真实场景中创造价值。从应用之初单一环节降本提效,走向单一环节优化赋能,演进到流程智能化赋能,最终将用技术重构上下游、优化产业生态,应用在零售、金融、交通、能源等千行百业中。
为了让数字人等AI技术进一步惠及千行百业,何晓冬表示,首先,需要通过政策引导、模式推广、典型案例树立等方式,建立以产业应用价值评价AI等技术创新的体系,不断强化技术应用的产业价值导向。其次,要通过政策鼓励、案例评选等方式,推动技术企业通过开放平台、智能体、产品化等方式,提供门槛低、价值明确、开箱即用的AI等技术产品和服务。第三,要推动企业创新探索与行业业务/技术标准、政策法规制定联动,及时跟进企业创新探索,充分发挥行业自律规范的作用,实现企业创新探索、行业标准自律、监管法规制定的良性循环。
“数字人正从‘数字分身’逐渐进化为‘数字生产力’。未来,融合情感计算的下一代数字人将具备记忆与创造力,成为人类的数字孪生体,甚至走向机器人场景。例如,教师数字人可伴随学生成长,十年如一日优化教学方法;品牌数字代言人能自主学习市场趋势,实时生成创意营销策略;文化遗产数字人则将跨越时空,以全息形式向世界讲述文明故事。”何晓冬对数字人的未来充满期待。