谷歌人工智能在语音识别方面取得进展 准确率达92%
网易科技讯11月13日消息,据VentureBeat报道,在语音嘈杂的环境中,要想分辨出有几个人讲话、在什么时间讲话,对于机器来说非常困难。但谷歌人工智能(AI)研究部门在语音识别方面取得了新进展,能以92%的准确率识别出每个人声音的专属模式。
谷歌AI研究部门在最新名为《Fully Supervised Speaker Diarization》的论文和相关博客文章中,研究人员描述了一种新的AI系统,它“能以一种更有效的方式识别声音”。
这套系统涉及到Speaker diarization任务,即需要标注出“谁”从“什么时候”到“什么时候”在说话,将语音样本分割成独特的、同构片段的过程。强大的AI系统必须能够将新的演讲者发音与它以前从未遇到过的语音片段关联起来。
这篇论文的作者声称,核心算法已经可在Github上的开源软件中可用,它实现了一个在线二值化错误率(DER),在NIST SRE 2000 CALLHOME基准上是7.6%,这对于实时应用来说已经足够低了,而谷歌之前使用的方法DER为8.8%。
谷歌研究人员的新方法是通过递归神经网络(RNN)模拟演讲者的嵌入(如词汇和短语的数学表示),递归神经网络是一种机器学习模型,它可以利用内部状态来处理输入序列。每个演讲者都从自己的RNN实例开始,该实例不断更新给定新嵌入的RNN状态,使系统能够学习发言者共享的高级知识。
研究人员在论文中写道:“由于该系统的所有组件都可以在监督环境下学习,所以在有高质量时间标记演讲者标签训练数据的情况下,它比无监督系统更受青睐。我们的系统受到全面监督,能够从带有时间戳的演讲者标签例子中学习。”
在未来的工作中,研究团队计划改进模型,使其能够集成上下文信息来执行脱机解码,他们希望这将进一步减少DER。研究人员还希望能够直接对声学特征进行建模,这样整个Speaker diarization系统就可以进行端到端训练。(小小)
您可能也感兴趣:
官方微博/微信
每日头条、业界资讯、热点资讯、八卦爆料,全天跟踪微博播报。各种爆料、内幕、花边、资讯一网打尽。百万互联网粉丝互动参与,TechWeb官方微博期待您的关注。
想在手机上看科技资讯和科技八卦吗?
想第一时间看独家爆料和深度报道吗?
请关注TechWeb官方微信公众帐号:
1.用手机扫左侧二维码;
2.在添加朋友里,搜索关注TechWeb。
为您推荐
最终悬念,小米SU7卖多少钱合适?
恒大汽车 2023 年净亏损 119.95 亿元,努力改善经营状况
日赚0.82亿 比亚迪2023年净利润300.41亿元,同比大涨80.72%
苹果WWDC 2024将于6月10日举行,或将推出生成式AI技术
苹果A18 Pro芯片细节曝光:采用更大尺寸 以提升AI性能
阿里撤回菜鸟上市申请 拟37.5亿美元收购菜鸟少数股东股权
AI造富能力一流
飞书开启裁员 全员信称会提供补偿方案或转岗机会
消息称小红书2023年首次实现盈利 但IPO前景仍不明朗
更多
- 全球生成式人工智能领域去年或有近700笔投资交易 总额291亿美元
- 华尔街预计特斯拉Q1交付47.1万辆电动汽车 但也有分析师预计低于43万辆
- 苹果WWDC24还有望推出Mac Studio 但Mac Pro可能要下半年
- 亚马逊再向AI初创公司Anthropic投资27.5亿美元 兑现40亿美元投资承诺
- 消息称苹果在测试一款新Apple Pencil 有望用于Vision Pro
- 现代汽车计划到2030年将电动汽车增至31款 韩国年产能增至151万辆
- 消息称苹果没有在iOS 18等新一代系统中引入自研AI聊天机器人计划
- 被美国司法部起诉垄断后 苹果在美国又面临至少3起集体反垄断诉讼
- 航拍显示特斯拉上海储能工厂准备动工 厂区内已有施工设备
- 消息称苹果不会在今晚宣布新iPad Air和iPad Pro 还得再等等