谷歌用AI从嘈杂环境中提取独立音轨:或存在隐私担忧
新浪科技讯 北京时间4月16日早间消息,谷歌研究人员开发了一种深度学习系统,可以帮助电脑在嘈杂环境中更好地识别和区分一个人的声音。
本周在谷歌研究博客中发布的文章显示,该公司的一个内部团队试图让人工智能(AI)像人类的大脑一样,可以主动关注一个声源,同时过滤其他声源——就像你在聚会上跟朋友对话时的做法。
谷歌的方法使用了一个视听模型,使之可以集中精力区分一段视频中的声音。该公司还发布了多段YouTube视频,演示这项技术的实际效果。
谷歌表示,这项技术可以适用于单音轨视频,而且可以通过算法分离出视频中不同人的音频内容,也可以让用户手动选取视频中的人脸,专门收听此人的声音。
谷歌表示,视觉元素是关键,因为这项技术会关注一个人的嘴唇运动,从而更好地判断某个时点应该关注哪段声音,并为一段较长的视频创造更精确的独立音轨。
谷歌研究人员通过收集10万段YouTube“演讲视频”开发了这个模型,总共提取了大约2000小时的内容,然后将这些音轨混合后,添加上人工背景噪音。
谷歌之后训练该技术通过观察每一格视频中的人脸和视频音轨的频谱图,把混合后的音频进行分割。这套系统可以区分哪个声源在特定时间内属于哪张脸,并为每个人制作一段独立的音轨。
谷歌认为,隐藏式字幕系统会成为该系统的一大应用领域,他们还在设想更广泛的应用方向,而且还在探索更多的机会,希望将其整合到各种谷歌产品中。例如,如果把它加入到Google Home智能音箱中,便可区分出不同用户发出的指令。
不过,这个模型需要配合视频才能更好地发挥作用,所以可能更适合亚马逊Echo Show。谷歌今年早些时候面向Echo Show这样的智能显示器开放了谷歌助手,但该公司本身尚未推出这样的产品。
但这项技术可能也会引发隐私担忧。虽然该技术的实际效果远没有视频演示得那么好,但经过一些细微调整,的确有可能成为强大的监听和监视工具。(思远)
您可能也感兴趣:
官方微博/微信
每日头条、业界资讯、热点资讯、八卦爆料,全天跟踪微博播报。各种爆料、内幕、花边、资讯一网打尽。百万互联网粉丝互动参与,TechWeb官方微博期待您的关注。
想在手机上看科技资讯和科技八卦吗?
想第一时间看独家爆料和深度报道吗?
请关注TechWeb官方微信公众帐号:
1.用手机扫左侧二维码;
2.在添加朋友里,搜索关注TechWeb。
为您推荐
5499元起!华为Pura70系列先锋计划开售
iPhone 16 Pro影像规格曝光:超广角将升级至4800万像素
一季度全球智能手机出货近2.9亿部 小米传音出货量同比均有大增
花旗预计“每卖一台SU7亏6800元” 小米高管回应:信息偏差较大
苹果将允许用户和第三方维修商使用二手正品零部件维修iPhone
苹果市值一夜暴涨8113亿元 据称拟升级整个Mac产品线
余承东调侃小米SU7原装手机支架设计?雷军发文回应
OpenAI超蚂蚁集团 胡润榜单上的“中国VS美国”
智己汽车因标注错误发致歉函 但致歉函中也有错误
更多
- 媲美GPT4的开源模型Llama 3怎么用?亚马逊云科技官方教程已上线
- 谷雨“龙井”奶茶外卖量涨5倍,茉莉奶白等多品牌联合饿了么上线“春日收官”新品
- 《热辣滚烫》获北影节“春节档特别荣誉” 出品人侯晓楠:海外票房已破700万美元
- Qorvo 谈 Wi-Fi 7、BMS 及 Sensor Fusion 的技术革新之力
- 三年霸榜 亚马逊云科技为何成为中国AI开发平台顶流?
- 英特尔发布大型神经拟态系统Hala Point
- SHARP MultiSync王牌系列工程投影机发布
- 比亚迪秦L内饰座舱首次曝光 将于北京车展正式亮相
- 百度智驾总裁王云鹏:将发布手车一体地图产品,帮3亿汽车丢掉手机支架
- 交个朋友直播间回应“陈皮”造假质疑
更多
- 特斯拉全球裁员不会影响墨西哥超级工厂建设 当地称正按计划推进
- Meta推出Llama 3大模型 在集成近25000块英伟达H100计算集群上训练
- 消息称苹果12.9英寸版iPad Air将采用mini-LED显示屏 在5月初推出
- 从5nm制程工艺来看 台积电3nm工艺或要明年才能成为最大营收来源
- 台积电一季度营收188.7亿美元 预计二季度会更高
- 分析师称iPhone 17 Plus屏幕将略小于iPhone 15 Plus和iPhone 16 Plus
- 苹果有意代工商在印尼建厂 CEO库克称将评估可行性
- SK海力士Q1营收有望超过12万亿韩元 营业利润重回万亿韩元之上
- 消息称苹果有意在印度生产iPhone摄像头部件 同当地厂商有过接触
- 自裁员消息出现以来 特斯拉市值已蒸发超过3000亿元