第09版:集成电路
3上一版  下一版4
 
语音识别飞入寻常百姓家?
芯片竞争向产业链深层次延伸
业界动态
 
版面导航
 
3上一期  下一期4
下一篇4 2012年7月17日 放大 缩小 默认        
主CPU处理语音功能存在瓶颈,分立处理模式前景看好
语音识别飞入寻常百姓家?

本报记者 李映

    使用语音协处理器可使系统响应速度提高50%,应用处理器上的负载最多可下降50%。

 

    “汽车内温度太高了。”“是要将温度调低一些吗?”以上流畅对话的场景或于不久在你和爱车之间变成现实,因为业界首款语音协处理器已然登场。虽然Siri的应用成为语音识别市场的催化剂,但目前市场上人机接口语音功能一般由主CPU来处理,效果自然有所“折扣”。当下,分立的语音协处理器来得正是时候。

    分立ACP提升用户体验

    应用协处理器可以改善语音识别系统的响应能力和延迟表现。

    “目前主CPU除了需要处理语音识别之外,还需要处理如高清视频、3D导航等,为处理能力和存储器带宽带来了计算、资源使用的瓶颈,特别是像语音识别需要很多资源密集型应用而言,更会形成这种瓶颈。如果将此功能让分立的语音协处理器来处理,就能营造出更好的用户体验。”Spansion执行副总裁兼全球业务总经理Glenda Dorchak向《中国电子报》记者介绍说,“虽然高端应用处理器正从单核快速转向双核和四核,但人机界面(UI)仍将是一个计算密集型功能,要求独立的硬件加速器和灵活的软件算法。”

    IDC半导体部高级分析师Michael Palma也提到,应用协处理器来处理语音任务,可以极大地改善语音识别系统的响应能力和延迟表现,同时可为CPU腾出更多处理能力以集中处理其他资源密集型应用。

    因此不难理解Spansion将定制型逻辑和硬件与Nuance公司VoCon软件引擎结合,推出全球首款语音协处理器(ACP)的用意所在。Spansion语音协处理器充分利用了Spansion久经验证的技术,及其在各类嵌入式应用中实现即时响应、高可靠性和性能方面的领先优势。Spansion市场营销和业务发展总监范承华在现场演示时记者看到,与仅采用应用处理器的典型系统相比,使用语音协处理器可使系统响应速度提高50%,应用处理器上的负载最多可下降50%。Glenda Dorchak还强调说,该语音协处理器还能够支持更大的语音数据库(包括多语言、语音性别和声调),从而能够提高准确性并促进自然语言理解(NLU)。

    而目前市场上还没有相似的替代品。范承华提到,虽然有的嵌入式系统为了解决语音识别耗费资源的问题,单独加一个通用ACP芯片来做语音识别,但它不是最优化的,也不是专用的。Spansion语音协处理器共有两款产品,一是高容量型,可存10~12声学模型;另一个是小容量型,可存1~3声学模型。

    将率先在汽车应用

    ACP将率先在汽车市场应用,在消费电子市场的潜力也非常巨大。

    而此款芯片针对的目标市场是从汽车“起步”。范承华说,汽车市场需要更加人性化的人与机器交互的方式,语音提供了一种更安全、更智能的驾驶连接技术,同时最大限度地减少了手持设备的视觉-手动干扰,提高驾驶的安全性。预计,Spansion占有汽车市场嵌入式内存市场份额将达70%,每一辆汽车当中平均都有5~6块的Spansion闪存芯片,认知度很高。目前,多家大型汽车制造商正在对此芯片进行评估,今年第三季度将开始提供设计样片。

    Nuance研发工程总监张亚昕表示,目前在汽车行业中全球有超过7000万辆汽车装载了Nuance语音识别技术。过去在没有ACP的时候,客户面临的一个大问题是,在导航时大容量的地图和复杂的导航软件占据了主CPU近70%的资源,而语音识别也是一个非常耗资源的软件,双方发生了“冲突”。在引入Spansion的ACP之后,一是反应速度和语音识别精确度有所提高,二是可腾出更多主处理器空间给其他应用,三是可缩短研发和上市时间。

    目前,Nuance汽车应用已涵盖导航、娱乐、电话&信息与联网服务领域,可实现包括单命令目的地输入、POI语音搜索、TTS语音播报信息与导航、新闻阅读器、语音拨号等在内的多种功能。

    除了汽车平台之外,在消费电子市场的潜力也非常巨大。Glenda Dorchak表示,语音识别被认为是下一代人机界面的一个趋势,像数字电视也开始越来越多引入语音识别,还有空调厂商也想用自然语言来控制空调,这一需求在往上走。但她也指出,这是一循序渐进的过程,需要技术不断加以完善。

    未来本地端和云端相结合

    云端和本地端的结合是语音识别未来趋势之一。

    值得关注的是,目前有部分厂商采用云计算支持语音识别,这就不需要ACP,会不会影响ACP未来的市场呢?对此Glenda Dorchak认为,云计算虽然有其优势,但也面临一些问题。其优势在于它能通过各种复杂算法提供更高的精度。但问题在于目前高级语音识别系统需要的是高MIPS和快速内存访问,UI越来越多地要求访问先进的查找表和算法,云计算带来的直接负面影响就是系统的延时。因此,ACP市场仍有可为。

    张亚昕表示,语音识别未来的趋势在于:一是云端和本地端的结合,两者结合起来更好一些。虽然云计算可处理复杂的、开放式的命令,但云计算会产生一定的延迟。另外,很多用户不愿意将个人的信息放在云端,比如地址薄等。二是自然语言理解。他举例道,比如空调控制,简单的语言识别只能说空调调高3度、空调降低2度,再说别的它就理解不了。而引用自然语言理解之后,可以说这有一点热,空调会立刻把空调温度降下来,这就是自然语言理解的好处。

    这显然面临一些技术挑战。张亚昕指出,进阶到自然语言理解阶段需要克服的技术障碍将包括复杂的软件算法;能够在各种高噪声环境中准确工作;多语言支持和快速反应;大词汇量、操作简单、低延迟等等。Glenda Dorchak也指出,未来语音协处理器将有望集成专用的硬件加速器、算术逻辑单元(ALU)和更大的内存,能够以更低的延时、功耗,更快地处理高级UI功能。

    随着电子产品智能化水平和人机互动能力的不断提高,语音、手势等人机接口相继出现,带来了全新需求。回望十几年前,当图像处理芯片作为独立的硬件加速器分立出来一样,业界都心存疑虑,而现在早已在市场遍地开花。或许,语音处理器也将历经同样的轨迹。

 
下一篇4  
  


电子信息产业网 http://www.cena.com.cn
中国电子报社版权所有。未经许可,不得转载或镜像。
地址:北京市海淀区紫竹院路66号赛迪大厦8层 邮编:100048
订阅电话:010-88558892 | 88558816

 

关闭