让机器识别视频中人类行为:谷歌推出AVA数据库
让机器识别视频中人类行为:谷歌推出AVA数据库 计算机视觉正在成为科技公司的一大福音,能够让机器加速运转,并完成迄今为止只能由人类完成的任务。
几个月前,eBay公布将要添加新的搜索功能,可以让用户使用现有照片来寻找类似商品,同时线上服装零售商ASOS则在时尚领域涉足此项。Shutterstock上周公布了一项全新的测试功能,用户可以根据自己的布局来搜索股票照片。过了几天,谷歌照片应用发布了新的宠物图像识别功能。
简而言之,在计算机视觉领域,发展越来越激动人心,同时也可以看到人们对人工智能领域的大量投资卓有成效。
目前,大多数计算机视觉技术的进步主要发生在静态图像领域,但我们也开始在视频中看到计算机视觉技术的成果。例如,俄罗斯当局在全国的实时监控网络中应用了面部识别技术。Pornhub也在做类似的事情,自动对“成人娱乐”视频进行分类,包括训练系统识别特定的性姿势。此外,还有蓬勃发展的自动驾驶汽车行业,在很大程度上依赖于机器对现实世界行为理解的能力。
在这样的背景下,谷歌推出了一个新的视频数据库,希望能够推动计算机视觉识别影像中行为的研究。“原子视觉行为”的英文缩写“AVA”是一个由多个标签组成的数据库,用户可以在视频序列中进行操作。
视频中动作识别的困难主要在于视频中各种复杂的场景交织在一起,多个动作也在同一时间由不同的人发出。
谷歌软件工程师顾春晖和大卫罗斯在一篇博客文章中解释道:“教会机器去识别影像中的人类行为是发展计算机视觉的一大基本难题,但是对于个人视频搜索和发现、体育分析和手势界面等应用至关重要。”“尽管过去几年在图像分类和寻找物体方面取得了激动人心的突破,但识别人类行为仍然是一个巨大的挑战。”
本质上,AVA就是一堆被80个原子动作标注的YouTube网址,并延伸到了近5.8万个视频片段,涉及到很多日常活动,比如握手、踢腿、拥抱、接吻、喝酒、玩乐器、散步等等。
通过对外开放数据库,谷歌希望可以改进机器的“社交视觉智能”,这样他们就能理解人类在做什么,并预测他们下一步会做什么。
该公司表示:“我们希望,AVA的发布将有助于改进人类行为识别系统的开发,并有机会基于时空间隔标签对复杂的活动进行建模。”
您可能也感兴趣:
官方微博/微信
每日头条、业界资讯、热点资讯、八卦爆料,全天跟踪微博播报。各种爆料、内幕、花边、资讯一网打尽。百万互联网粉丝互动参与,TechWeb官方微博期待您的关注。
想在手机上看科技资讯和科技八卦吗?
想第一时间看独家爆料和深度报道吗?
请关注TechWeb官方微信公众帐号:
1.用手机扫左侧二维码;
2.在添加朋友里,搜索关注TechWeb。
为您推荐
恒大汽车 2023 年净亏损 119.95 亿元,努力改善经营状况
日赚0.82亿 比亚迪2023年净利润300.41亿元,同比大涨80.72%
苹果WWDC 2024将于6月10日举行,或将推出生成式AI技术
苹果A18 Pro芯片细节曝光:采用更大尺寸 以提升AI性能
阿里撤回菜鸟上市申请 拟37.5亿美元收购菜鸟少数股东股权
AI造富能力一流
飞书开启裁员 全员信称会提供补偿方案或转岗机会
消息称小红书2023年首次实现盈利 但IPO前景仍不明朗
更多
- 全球生成式人工智能领域去年或有近700笔投资交易 总额291亿美元
- 华尔街预计特斯拉Q1交付47.1万辆电动汽车 但也有分析师预计低于43万辆
- 苹果WWDC24还有望推出Mac Studio 但Mac Pro可能要下半年
- 亚马逊再向AI初创公司Anthropic投资27.5亿美元 兑现40亿美元投资承诺
- 消息称苹果在测试一款新Apple Pencil 有望用于Vision Pro
- 现代汽车计划到2030年将电动汽车增至31款 韩国年产能增至151万辆
- 消息称苹果没有在iOS 18等新一代系统中引入自研AI聊天机器人计划
- 被美国司法部起诉垄断后 苹果在美国又面临至少3起集体反垄断诉讼
- 航拍显示特斯拉上海储能工厂准备动工 厂区内已有施工设备
- 消息称苹果不会在今晚宣布新iPad Air和iPad Pro 还得再等等