刷新世界纪录!腾讯光影研究室在CVPR单目深度估计竞赛中以绝对优势夺冠
近日,腾讯光影研究室(Tencent GY-Lab)凭借自研GYDepth算法,在CVPR 2021 Workshop的Mobile AI单目深度估计竞赛中以领先第二名9倍的绝对优势夺冠,击败三星、OPPO等手机厂商和国内外著名高校。
关于Mobile AI 2021
CVPR是世界计算机视觉三大顶级会议之一,Mobile AI是CVPR 2021其中一项Workshop比赛,除了单目深度估计竞赛之外,还包括图像超分、视频超分等任务。这项比赛以“Mobile”为名,主打移动端芯片上的AI能力,在AI相关技术领域受到广泛关注和高度认可,吸引着众多手机厂商如三星,OPPO和国内外著名高校参与。
光影实验室自研GYDepth算法,斩获单目深度估计竞赛第一名
单目深度估计是计算机视觉领域的一项基础任务,其目的在于让普通的RGB摄像头能够识别出视野内的物体距离摄像头的远近。单目深度估计技术的完善能够让主流AR玩法摆脱深度摄像头的限制,走向更普遍的机型。
比赛的最终指标由模型精度与模型速度两部分组成,而此次比赛中,单目深度估计的数据大多来自室外场景,并由ZED双目摄像头采集。相比传统AR玩法常用的室内场景的多样性会更多,难度更大。
针对Mobile AI室外场景,腾讯光影研究室在常规单目深度估计模型训练框架的基础上,对网络结构、训练方式、模型部署上做了针对性调整。
在网络结构设计上,团队在模型小型化上投入了大量精力。整体网络是一个标准的Encoder-Decoder模型,模型自原图输入后经过了4次共16倍的下采样,然后经过特征融合模块再逐层上采样回初始的分辨率。在模型上采样的过程中,由于模型部署条件的限制,腾讯光影研究室摒弃了Depthwise Deconvolution的方案,转而选择了实现更加高效的Resize + Depthwise Convolution组合。不过,小模型自然也会带来精度指标的降低。为了弥补这一差距,团队在训练流程中引入了在线蒸馏。由于单目深度估计本身就是对输出的单通道Feature Map进行回归,这里继续对Soft Label进行蒸馏会和GT产生歧义,因此他们选择在Hint Feature进行蒸馏,并且使用了网络结构类似的服务器端开源大模型Bts作为Teacher。
除此之外,在训练过程中,团队除了使用常规的Flip、Color Transform外,还针对固定分辨率下绝对深度的特性,对RGBD图片对采用了Random Crop的策略。和常规Crop不同,团队在Crop后利用相似三角形的特性对Depth的值进行了补偿,其背后的原理类似于使用相机拍摄时,把画面放大和拍摄者向前走能达到一样的效果。
另外,在模型部署上,Mobile AI Depth竞赛要求提交的模型以Float32 TFLite形式在树莓派Raspberry Pi 4上以CPU运行。这意味着传统上针对Conv等基础算子在CPU上的计算优化是不可用的,模型的速度实打实的和模型计算量正相关。为了满足比赛提交的要求,腾讯光影研究室打通了PyTorch -> Onnx -> Keras -> TFLite的转换路径,并确保了转换前后模型端到端精度误差小于1e-6。
持续深耕AI前沿技术研发,赋能更多应用场景
实际上,光影研究室的AR玩法中,或多或少都有单目深度估计技术的身影,通过压缩、剪枝、蒸馏获得的小模型,可以在手机移动端实时运行,并覆盖ios和android双端90%以上的机型。目前单目深度估计技术已作为基础能力在多个AR玩法中发挥作用。比如,在手机QQ的AR蛋糕等贴纸类玩法中,单目深度估计技术提供了贴纸目标在空间中的方向与位置,使得AR算法能够快速初始化;在水淹食堂特效中,单目深度估计模型提供了视野中每个点距离相机的远近,结合相机内外参可以计算其在世界坐标系下的位置,从而实现AR特效。
未来,光影研究室也将持续深耕AI前沿技术的研发和积累,探索并开放更多场景的创意玩法及能力,为用户提供充满趣味惊喜的社交和视觉新体验。
您可能也感兴趣:
官方微博/微信

每日头条、业界资讯、热点资讯、八卦爆料,全天跟踪微博播报。各种爆料、内幕、花边、资讯一网打尽。百万互联网粉丝互动参与,TechWeb官方微博期待您的关注。

想在手机上看科技资讯和科技八卦吗?
想第一时间看独家爆料和深度报道吗?
请关注TechWeb官方微信公众帐号:
1.用手机扫左侧二维码;
2.在添加朋友里,搜索关注TechWeb。
为您推荐
特斯拉股价实现九连涨 距离万亿市值还差近3000亿美元
分析师称苹果应收购迪士尼 以推动Vision Pro普及
集邦咨询预计2024年苹果Vision Pro MR头显出货量约为20万台
微软将向美国国防部、美国宇航局等机构开放GPT-4大模型
OpenAI CEO重申尚未开始训练GPT-5 还有很多工作需要做
周鸿祎直播演示360智脑高考作文 冯仑:及格 但不打动人
网传长安汽车克扣供应商10%货款 官方发声明否认并已报案
Meta旗下社交应用Instagram被曝可能引入AI聊天机器人
苹果公司证实已收购AR头显初创公司Mira
更多
- 荷兰隐私监管机构出于担忧要求OpenAI提供更多信息
- 电动汽车充电桩厂商SK Signet美国首座工厂已建成 下月投入运营
- 三星电子将向现代汽车供应最新一代汽车芯片 用于车载信息娱乐系统
- 史上最小最便宜车型 沃尔沃推出全电动紧凑型SUV EX30
- 数据中心热衷于AI GPU供应多元化 AMD有望成最大受益者
- 特斯拉股价实现九连涨 距离万亿市值还差近3000亿美元
- 分析师称苹果应收购迪士尼 以推动Vision Pro普及
- 集邦咨询预计2024年苹果Vision Pro MR头显出货量约为20万台
- 微软将向美国国防部、美国宇航局等机构开放GPT-4大模型
- OpenAI CEO重申尚未开始训练GPT-5 还有很多工作需要做