首页 人工智能

澎思科技宣布声纹识别技术刷新世界记录

【TechWeb】近日,澎思科技与新加坡国立大学Human Language Technology (HLT) 实验室共同研究的声纹识别 (SpeakerVerification) 技术在RSR2015数据集上刷新世界纪录。相比目前主流的算法,该技术可以在使用50%或更少的数据进行机器学习的情况下,依然在各种比较协议中表现出十分优异的性能。

声纹识别(SpeakerVerification)也称为说话人识别,是一种通过声音判别说话人身份的技术。该技术通过对一种或多种语音信号的特征分析来达到对未知声音辨别的目的,简单的说就是辨别某一句话是否是某一个人说的技术。

声纹识别作为生物识别技术的一种,在公共安全、金融、智能家居和办公等领域都有非常广阔的应用场景,譬如侦查破案、反电信诈骗、治安防控、身份认证、支付、门禁、会议录音等。相比于人脸识别和指纹识别,声纹的采集只需要麦克风模块,成本相比于摄像头或者指纹识别模块而言要低,采集的方便性和安全性则要高。在一些特殊领域,声纹识别更是具有独一无二的优势。

在实际应用中,声纹识别系统往往需要用户事先录入声音,所以利用更少的数据完成声纹识别的训练在实际应用中有着很大的需求。澎思科技提出的新算法,大大降低了训练所需的数据量,但依旧可以实现非常高的识别精度,有着非常重要的实际应用价值。

刷新RSR2015数据集新记录

RSR2015 ( Robust Speaker Recognition 2015 ) 数据库是由新加坡国家科技研究局(Agency for Science, Technology and Research, A*STAR)信息通信研究所(Institute for Infocomm Research, I²R) 收集和发布的,被广泛应用于声纹识别等领域的研究工作,是目前最主流的大型语音数据库之一。该数据库旨在为声纹识别领域提供相关的数据资源,允许使用不同类型的比较协议。

声纹识别中最常用的评价指标是等错误率(Equal Error Rate,EER),在调整阈值后,使得错误拒绝率(False Rejection Rate,FRR)等于错误接受率 (False Acceptance Rate,FAR),此时的FAR与FRR的值称为等错误率。一般来说,越低的等错误率表示系统有越好的识别准确性。

表格1. 遵循RSR2015 的对比协议和trails[1]的比较结果

表格2. RSR2015  part1 evaluation部分的混合性别测试结果

表格3. RSR2015 part 2部分的测试结果

表格1中分别是数据库第一部分的4个子集的测试结果。其中TW (target wrong) 指的是正确的声纹验证对象但是使用了错误的口令; IC (imposter correct) 代表使用正确口令的声纹信息的冒名顶替者; IW (imposter wrong) 代表使用错误口令的拥有错误声纹信息的人。

在这三项指标中,较为重要的是IC任务。澎思科技提出的新技术在提升该项任务的准确度的同时,兼顾考虑了整个系统的总体性能。

表格4. RSR2015数据集的SV与UV性能

SV (Speaker Verification)和 UV (Utterance Verification)分别是针对声纹与口令识别的性能评估方式。两项任务综合体现基于文本的声纹系统在两个任务上的性能表现。其中,SV任务的性能尤为重要。

在所有的对比中,绝大多数的算法都使用了RSR2015的背景集(background set)和发展集(development set)的数据以达到更好的效果。甚至在一些算法中,会添加更多其他数据集的数据来提升准确性。与之不同的是,澎思科技提出的新技术并不依赖于这些的数据,在极少的训练数据情况下,依旧有着非常高的准确性。

更多详细的技术细节将在澎思科技与新加坡国立大学HLT实验室联合提交至Interspeech2020的论文中介绍。

官方微博/微信

每日头条、业界资讯、热点资讯、八卦爆料,全天跟踪微博播报。各种爆料、内幕、花边、资讯一网打尽。百万互联网粉丝互动参与,TechWeb官方微博期待您的关注。

↑扫描二维码

想在手机上看科技资讯和科技八卦吗?

想第一时间看独家爆料和深度报道吗?

请关注TechWeb官方微信公众帐号:

1.用手机扫左侧二维码;

2.在添加朋友里,搜索关注TechWeb。

手机游戏更多