CVPR 2018 | 旷视荣获CVPR挑战赛 AVA&WAD 双项冠军

2018-07-01

作为全球五十大最聪明企业和计算机视觉领域的原创技术担当，旷视在世界范围内所参与的人工智能技术挑战赛中始终处于高位水平。自 2013 年赢得人脸识别三项世界冠军以来，旷视已累计收获 17 项人工智能技术评测冠军和挑战赛第一名，今天仍在不断续写辉煌。CVPR 2018 期间，多项挑战赛结果揭晓，其中旷视参与了 AVA 和 WAD 挑战赛，击败谷歌 DeepMind 和英伟达等巨头公司，斩获「时空行为定位」和「实例视频分割」双项冠军。

AVA & WAD 挑战赛分别针对视频语义和自动驾驶问题而设，挑战赛不仅给了旷视在 CVPR 2018 这样的国际舞台上秀“技术肌肉”的机会，同时彰显了旷视研究院雄厚的人才储备和过硬的技术储备，也为旷视后续的产品创新和技术落地埋下了伏笔。

旷视首席科学家孙剑在其朋友圈不无幽默地写到：“团队拿了大规模动作识别 ActivityNet 挑战赛、和基于 ApolloScape（目前最大规模公开数据）的自动驾驶挑战赛的两个 task 冠军，我都不知道你们参赛了。”这不仅反映了团队超强的实力和惊人的自驱力，还有研究院倍加推崇的“无知者无畏的精神”。下面是旷视研究院俞刚博士等人对 AVA & WAD 挑战赛所作的相关技术解读，以及其对旷视产品体系所带来的影响。

AVA 挑战赛

ActivityNet Large-Scale Activity Recognition Challenge （ActivityNet Challenge）是一项计算机视觉领域的大规模挑战赛，自 2016 至今，已成功举办三届。ActivityNet 挑战赛聚焦于识别互联网视频门户网站之中的日常及目标导向的高级行为，比赛结果已在 CVPR 会上公布，并以 Workshop 形式展示。

Image 076.png

ActivityNet Challenge 2018 颁奖现场

ActivityNet Challenge 2018 包含 6 个独立任务（Task），旨在进一步拓展视频语义理解的边界，其中 Task B 时空行为定位（Spatio-temporal Action Localization）依据 AVA 数据集，试图评估算法对人类行为时空信息的定位能力，其中每个标注的视频片段连续且超过 15 分钟，包含多个主体，每个主体有多个行为；Task B 分为 #1 (Vision Only) 以及 #2 (Full) 两个子挑战赛。总体来说，这一任务做大的难点是将动作细化到了原子级别，需要在任务中判断人类行为主体的位置，发生了什么动作，又与其他物体/人发生了什么交互。

从结果看，旷视在这次挑战赛中力压群雄，分别以 0.21075 和 0.2099 的成绩拿下 AVA 挑战赛双料第一名，谷歌 DeepMind 名列 #1 (Vision Only) 第二名。

旷视研究院检测组负责人俞刚表示，该挑战赛的算法把时空动作行为的任务分解成了两个子任务：1) 行人位置定位以及 2) 基于检测位置的动作分类。而制胜的诀窍是旷视在行人检测子网络中使用了最新的检测技术，比如 Light Head R-CNN；而在动作分类子网络中，则结合最新的 3D 卷积特征, 比如 I3D, 以及传统的 two-stream 网络特征来优化动作分类能力。

AVA 挑战赛夺冠在一定程度上表明，旷视研究院有着过硬的技术储备和优秀的人才梯队，究其原因，这是由于旷视研究院向来重视通过参加挑战赛不断培养和提高实习生和研究员自主解决问题的能力。通过挑战赛夺冠测试和筛选技术矩阵，强化优秀技术库存，使得旷视研究院内部形成一个良性循环，而这正是旷视能够成为全球五十大聪明公司和原创技术担当的重要因素之一。

走好从人才到技术这一步，下一步是从技术到产品。从公司产品的角度讲，行为时空信息的定位能力在视频语义分析上有着非常大的意义，这一技术将从底层因素上推动旷视产品体系的迭代和更新，更好地连接场景，提升用户体验，提供真正的商业价值；未来这项技术将在智慧城市、智慧零售和智慧安防等领域发挥强大作用，实现旷视赋能亿万摄像头的愿景。

WAD 挑战赛

WAD（Workshop on Autonomous Driving）是一项由 CVPR 2018 workshop 主办的自动驾驶识别挑战赛，包含驾驶区域分割、道路物体检测、语义分割域适应和实例视频分割 4 个 Task，旨在展示当前的计算机视觉算法对外在环境的感知能力；其中的 Task 4 ——实例视频分割（Instance-level Video Segmentation）要求参赛者在一帧之内实现对移动物体（比如汽车和行人）实例级别的分割，参与这项任务的意义在于挑战赛为研究者们提供了一次真正独特的机会，练手解决自动驾驶领域内极具价值且引人关注的问题。

基于由百度精良标注的大规模数据集 ApolloScape，该挑战赛目前已开放 14.7 万帧的像素级语义标注图像；另外值得一提的是，其大小是当前同类型开源数据集的 10+ 倍，标注精细度已经超过同类型的 KITTI、Cityscapes 数据集，也超过 UC Berkley 最新发布的 BDD100K 数据集。在 WAD 挑战赛中，旷视最终以 0.33986 的成绩夺得第一名，超过第三名芯片巨头英伟达将近 7 个点。

Image 077.png