旷视科技谢忆楠：计算机视觉需要更多的“＋”

2020年11月02日

作为全球知名的人工智能及人脸识别技术厂商，旷视科技资深副总裁谢忆楠在芯智讯主办的“2020第四届生物识别技术与应用高峰论坛”上做了主题为《CV＋的技术洞察与实践》的分享。

△旷视科技资深副总裁谢忆楠

作为最早从人脸识别领域切入市场旷视科技来说，很多人一提起旷视，首先会想到的是旷视科技的“Face＋＋”，将旷视与人脸识别紧密结合起来。但是，旷视之所以叫“旷视”的实际含义是“更大的视觉”。

“我们的使命是让机器可以看到世界。”谢忆楠解释到。而机器看到世界往往是通过摄像头，通过摄像头还原图像，一直以来是以人眼作为标准。如何达到甚至超过人眼的水平，然后去理解其背后的信息，这也是CV（计算机视觉）技术发展的方向。

谢忆楠表示：“在视觉领域里你能做得越多越好，你才能看理解后能做到什么样。之前旷视主要做人脸识别，现在我们做机器视觉算法，可以做更多的事情。”

对于计算机视觉（CV）企业来说，在比拼技术高低的时候，过去通常都是以在某些国际竞赛上拿下了几个第一，识别率达到了百分之多少，但是这个百分比究竟代表着什么，不知道，只知道越接近100%越好。但是实际上，CV的价值在于，如何让CV这件事变成“＋”号，如何往下加得更深，如何向前向后延展？

为此，旷视在神经网络结构创新、低比特网络（超强性能功耗比）、算法训练的规模化路径、算法自演化、针对移动端的高效卷积神经网络、算法与芯片Co-Design以及AutoML等方面做了很多的工作。

“通过与合作伙伴进行算法/芯片Co-Design，再加上低比特方案，我们的算法可以在芯片侧实现超强性能功耗比。AutoML可以自己做演进学习，用自动模型搜索的方式，快速训练算法，某一个场景下用哪个模型做这件事效果最好，这件事显然机器比人更强。”谢忆楠进一步解释到。

此外在系统层面，旷视还开源了深度学习框架天元，开源了三位一体的自研的AI生产力平台Brain＋＋，通过工程化，极大的提升了效率。在数据层面，旷视还推出了全球最大的精标物体检测数据集Objects356。

回到机器视觉算法本身，旷视针对包括人脸识别在内的很多的行业和场景也推出了很多的视觉算法，但是各个行业和场景都有着不同的要求，这也意味着我们还需要更多的算法。

光有好的计算机视觉算法还不够，要想解决行业所面临的问题，还需要综合很多方面的东西。一方面，提升关联度。比如脸人关联、人车关联、人-事件关联、人-时空关联、人-货关联等。构建以视觉目标为核心的关系图谱，基于关系图谱的数据挖掘引擎；另一方面，识别更广的维度。比如识别更多不同类型的目标、更多人或物的属性、更多的事件（摔倒、奔跑、抽烟、打电话、睡觉等）、更全面的识别各种态势（如人群计数、人流方向、人群聚集、排队长度等）；更高的精度。在感知精度方面，碎片化需求的精度需要逐一优化到99%＋，在检索精度方面，视觉大数据通用搜索引擎，也需要精度的持续演进。

以上这些都是计算机视觉所面临的挑战，只有解决了这些挑战，我们才能获得更大的机遇。“有些挑战可能并不如我们想象那么难，但是他给我们的机遇蛮大的。比如在这次新冠疫情所需的自动测温设备方面，考验的是各家做CV的公司，做红外的公司，做应用的公司，哪家可以先把视觉、红外和整个系统先打通的能力。你有硬件基础、CV基础，又有调和其他硬件结合的基础才能做好这件事。”

对于视觉算法的规模化路径，谢忆楠表示，“第一，需要很多的模型；第二，需要自动模型做算法。”而在这些方面，旷视也已经有了很多的积累。谢忆楠强调，旷视拥有全球规模最大的计算机视觉研究院，研究人员数量超过了500位。