首页 人工智能

百度输入法AI探索版亮相 SMLTA加持语音识别精度超行业水平15%

【TechWeb】1月16日,百度输入法AI探索版今日正式亮相,这是一款默认输入方式为全语音输入,并可以调动表情、肢体等进行全感官输入的全新输入产品,完美支持方言输入、中英文混说输入等多种语音输入方式。

这款AI输入法采用了百度语音技术的突破性创新:流式截断的多层注意力模型——Streaming trancated multi-layer attention(SMLTA)。

据介绍,该模型实现了中文在线语音识别历史上的两个重大突破:世界上首次实现了局部注意力建模识别精度超过全局注意力模型;世界上第一次大规模部署在线语音交互注意力模型。将在线语音识别精度相比行业最高水平又提升了15%。

现场,百度高级副总裁王海峰表示,输入法是离用户最近的产品之一,也是AI落地的“桥头堡”,百度全方位的AI能力正在不断赋能输入法,让输入法更“聪明”。他认为,未来的输入法将应用于各种智能设备与用户的交互,连通包括智能家居、车联网等多种终端场景。

1

百度中文输入法负责人蔡玉婷介绍,截至2018年底,百度输入法月活跃人数已达5亿,语音日请求量峰值突破5.5亿,AR表情使用次数超过1亿。同时,百度海外输入法全球安装量超过1亿,支持120种语言,覆盖全球190个国家地区,并已与超过100个全球知名IP达成合作。

输入法AI探索版特色功能

蔡玉婷介绍,相较2016年,百度输入法日均语音请求量增长了8倍,语音输入法的场景也从聊天和搜索拓展到游戏、娱乐、购物等众多场景。百度输入法AI探索版是百度AI落地应用的又一重要成果,全语音交互是它最大的特点之一。

值得一提的是,百度输入法AI探索版支持中英文混说输入,在完全不影响中文语音输入准确率的情况下,能高精准的中英文混合语音识输入。

2

此外,百度输入法将普通话和六大方言融合成一个语音识别模型,实现了方言与方言、方言与普通话的混合语音输入。现场分别演示了百度输入法AI探索版接收四川、西北、东北等六地方言的语音输入,识别准确率均表现不俗。

据介绍,百度输入法是目前唯一实现了高精度“中英自由说”和“方言自由说”的输入法产品。

蔡玉婷介绍,目前百度输入法已经支持六地方言的语音输入识别,尚不支持粤语,未来将陆续支持更多地方方言。

除了语音输入,百度输入法AI探索版还推出了拍立活、秀场、凌空手写等新功能玩法。

SMLTA技术加持 在线语音识别精度再提高15%

当前语音领域主流的Attention模型(注意力模型)提出已有好几年。注意力模型的核心思想,是通过机器学习的方法,把一句话中每个音节或者汉字的音频特征,从整句话的音频特征中,通过机器学习的方法,自动的挖掘出来。直接实现了语音和文本一体化的端到端建模,从而公认的有更高的建模精度。

但是截至目前,注意力模型在在线语音服务中的大规模使用,一直鲜有成功案例。

3

此次百度发布的流式截断多层注意力建模(SMLTA),实现了中文在线语音识别历史上的两个重大突破:世界上首次实现了局部注意力建模识别精度超过全局注意力模型;世界上第一次大规模部署在线语音交互注意力模型。

百度语音技术部负责人高亮向TechWeb等介绍,流式截断的多层注意力模型(SMLTA)是基于CTC的尖峰信息对语音流进行截断,然后再每一截断的语音小段上进行当前建模单元的注意力建模,把全局的Attention的整句识别变成了局部的Attention的流式识别,并且引入多层的Attention,实现特征层层递进的更精准的特征选择。

这使得语音识别的识别率超越传统的全局Attention建模,同时计算速度和传统CTC技术持平,实现全CPU流量的大规模线上服务。这是全世界范围内,第一次基于attention技术的在线语音识别服务的大规模上线。这项技术的突破促使百度输入法“在线语音”相对准确率领先业界15%。

同时,百度语音技术团队优化了输入法上嵌入式识别的deep peak2系统,大幅提升了离线语音识别准确率。据介绍,目前百度输入法“离线语音”输入准确率已高于行业平均水平35%。

官方微博/微信

每日头条、业界资讯、热点资讯、八卦爆料,全天跟踪微博播报。各种爆料、内幕、花边、资讯一网打尽。百万互联网粉丝互动参与,TechWeb官方微博期待您的关注。

↑扫描二维码

想在手机上看科技资讯和科技八卦吗?

想第一时间看独家爆料和深度报道吗?

请关注TechWeb官方微信公众帐号:

1.用手机扫左侧二维码;

2.在添加朋友里,搜索关注TechWeb。