首页 人工智能

百度输入法8.0上线!带你深挖一大技术突破与两项全新功能

【TechWeb报道】1月17日消息,今日百度在京举办了主题为“AI输入,开启全感官输入时代”的发布会,百度输入法8.0版本于今日正式上线,依托于百度在语音技术的最新突破,全新的功能孕育而生——语音速记、AR表情。接下来我们先从用户关心的两大新功能谈起。

两大AI功能语音速记与AR表情

语音速记功能,其实这个功能百度在去年的世界大会上就秀过,Robin在现场的演讲都在两侧的大屏幕中得到记录与展现。此次百度将这个AI能力开放给了输入法。

4

在语音速记功能中,又分为单人与多人两种模式,在多人模式下,利用百度的声纹识别技术,能将不同对话者进行分开标注,让速记页面得到更直观的显得。录音结束后,可通过文字的形式进行复制或分享。对于文字工作者来说,这是一个极富价值的功能,大大省去了录入所耗费的时间成本。

5

在现场测试中,速记功能在58秒内准确无误识别并记录了426个字,其中涵叠字、中英混合等语句,完全超过了专业速记员的水准。

另一大功能AR表情则是结合了百度人脸识别及AR技术而成,制作表情包、虚拟形象可谓样样精通,并与桃花坞等国内非物质文化遗产达成了合作,将表情包内融入了更多古典元素(年画、戏曲、风俗)。

6

据百度给出的数据统计,目前百度输入法使用人群70%为90后,斗图成为了他们生活中发泄的一种方式,AR表情的上线,是图库素材较少用户的福音。结合了人脸识别功能,在一些家庭场景应用下(如拜年),既能活跃气氛又不显浮夸。

除了上述两项新功能外,百度输入法此前还上线过语音修改、语音翻译、语音轻声识别、场景化语音识别、语音联想表情、OCR扫描输入6大功能。不难看出百度正在从更懂中文变得更懂你!

今日起Android用户可去百度输入法官网进行下载体验,而iOS用户还需等待苹果商店的审核。

Deep Peak 2技术突破

之所以语音速记能够有如此好的表现,离不开百度在Deep Peak 2模型上的技术突破。该技术全称为‘基于LSTM和CTC的上下文无关音素组合建模’。

早在几年前百度就开始利用CTC进行语音搜索系统的训练,采用5层单向LSTM模型,对上线文相关的声韵母建模,利用CTC技术训练之后采用区分度训练提升CTC训练后的模型性能。当时测试结果是,准确率提升了18%左右,解码速度提升了40%以上。

7

而全新Deep Peak 2模型核心解决了国际上端到端系统建模的过拟合问题,配合中英文及口语和朗读混合建模,让语音识别的准确率变得更高。

通俗点来理解就是,当你说:“帮我拿点东西,thanks”,Deep Peak 2模型推出的‘上下文无关建模’,能够将音素定义为唯一的一个建模单元,这样的建模方式,让语音输入有了更高的中英文混合识别能力。

同时,Deep Peak 2采用了CI的音素组合建模,建模单元数目减少了10倍之多,意味着路径解码部分的消耗也将降低10倍,从而提升交互的流畅度。

百度AI并未止于此

或许有些人觉得,AI技术应用到这种层面就已经足够了,但百度告诉你,未来想象的空间还有很大。如VR体验上,现如今多数VR在操作上略显‘粗糙’,未来利用AI技术,能够对眼神进行捕捉,将体验上升到一个新的高度。

从最新一代的输入法中,我们也看到了百度正逐渐在应用层落地着自家的AI成果,其品牌与价值也在被AI一点点重塑着,随着商业化的逐步落地,将会对百度在未来十年中产生巨大影响。

官方微博/微信

每日头条、业界资讯、热点资讯、八卦爆料,全天跟踪微博播报。各种爆料、内幕、花边、资讯一网打尽。百万互联网粉丝互动参与,TechWeb官方微博期待您的关注。

↑扫描二维码

想在手机上看科技资讯和科技八卦吗?

想第一时间看独家爆料和深度报道吗?

请关注TechWeb官方微信公众帐号:

1.用手机扫左侧二维码;

2.在添加朋友里,搜索关注TechWeb。

手机游戏更多