深圳先进院乔宇：让人工智能“看懂”视频

近年来，随着信息通信技术的发展，视频数据呈现爆炸式增长，大规模视频识别仍面临内容复杂、识别精度和计算效率等巨大挑战。

中科院深圳先进技术研究院乔宇团队牵头完成的“视频的深度表征与识别技术及应用”项目，在短视频运动语义抽取、视频长时序列建模、内容识别理解等方面发明创新技术，赋予AI既能"看得懂"，又能"认得准"，同时还能"算得快"的能力，实现对复杂、海量视频的高精度识别及快速处理。项目成果在智慧城市、智能终端等领域形成了规模化产业应用，在全国以及新加坡、中东等海外市场落地。该项目荣获2019年度广东省技术发明一等奖。

立志教会机器“看”和“听”

眼睛是人类的重要器官之一，人通过眼睛去观察这个五彩缤纷的世界。据统计，人类获得信息70%以上是通过视觉。

深圳先进院数字所所长、研究员乔宇说，我们的眼底有上亿个神经元的细胞用于感知，人脑中涉及视觉信息处理的细胞达到数百亿。即便是几个月大的婴儿，也能分辨出人脸。我们研究的目的就是让计算机像人一样能够看懂世界、理解世界。

在几十年前，人工智能并没有如今这么火爆，当时的国内外高校都没有设置人工智能这个专业，很多AI领域大咖在本科时代都是学习自动化专业，乔宇就是如此。

在大学本科时期，乔宇就对图像处理、语言识别产生浓厚的兴趣。说起把人工智能作为研究方向的原因，乔宇回答说，其实就是一个很朴素的想法——想把人能做的事情教给机器。

在日本取得博士学位后，乔宇先后在中国香港、日本的高校做科研，研究的领域正是图像处理和语言识别，这是人工智能最重要的分支。

在早期，计算机理解图片是非常难的。乔宇说，以猫为例，猫有不同的品种和颜色，可以摆出多种姿态，当图片中有几只猫，这些猫之间可能会有遮挡、交互。对计算机来说，由人去制定规则，然后教计算机去判断图片中是否含有猫，是一项异常复杂而艰巨的任务，结果准确率往往达不到人的期望，甚至远比不上一个三岁的小孩。近年来，伴随着深度学习方法的发展，计算机对图片的识别能力才有显著的提升，在特定任务可以接近甚至超过人的识别精度。

十年磨剑机器视觉技术国际领先

2010年开始，由于深度学习的应用，机器视觉和语音识别都取得很大的进展。同一时期，乔宇进入深圳先进院，把视频的分析理解作为最主要的研究方向，也迎来自己科研生涯的一个高峰。

“计算机视觉是人工智能的核心领域之一，也被认为是推动当前社会发展、经济进步的重要革命性技术。”乔宇说，它的应用领域非常广泛，包括人脸识别、自动驾驶、安防监控、工业检测、医学影像、照片美化等等。

乔宇说，随着电子信息技术的迅猛发展和硬件成本的大幅下降，人类社会正在进入视觉信息的大数据时代，互联网上视觉信息越来越多，监控视频数据快速增长，利用计算机视觉技术让机器能够理解图片、识别视频就显得尤为重要。

“我们刚好赶上一波很重要的一个潮流，就是深度学习。”乔宇带领团队，经过多年研究开发和应用验证，提出了视频长短时表征与识别等一系列创新性方法，突破了轨迹卷积、中心损失等核心技术，显著提升了复杂视频行为分类、大规模人像识别、物体检测、场景分类等重要视觉任务的性能。改变了早期部分学者认为深度学习只适合做图像而不适合做视频的看法，得到国际顶级会议和专家的认可。

该技术在多个著名视觉数据库的验证下取得了同期国际领先的识别率，并在ImageNet、ActivityNet等重要视觉国际竞赛多次取得第一或名列前茅。在计算机视觉重要国际期刊和会议如PAMI、IJCV、CVPR、ICCV等发表一系列创新论文，根据谷歌学术统计论文累计被引超过8000次，获国内外授权发明专利10余项。可以说，正是以乔宇团队为代表的中国创新力量的不懈努力，将中国带入计算机视觉领域的世界第一集团。

创新成果应用广泛

目前，该项目研发的技术已与商汤、华为等企业展开深入合作，广泛应用于智慧城市、机器人及互联网多媒体等多个领域，提高了城市的管理效率和能力，创造了显著的经济和社会效益。

乔宇举例说，他们和深圳博铭维智能科技合作，开发智能管道机器人，运行于深圳各区的地下管道，通过视频智能判断是否有堵塞、管道错接破裂等异常，不仅极大提高了工作效率，也避免人工作业的安全隐患。

乔宇认为，深度学习的方法确实有效解决了机器视觉的很多问题，比如人脸识别在千万级的数据集上，可以达到99%的识别率。但也存在局限性，比如小数据和数据不平衡带来的识别误差和漏洞，另一方面，深度网络只是在学数据，并没有如人一样利用常识，进行知识推理能力。在小数据、知识运用和推理等方面，国外也处于研究过程中，中国未来在这些领域是存在机遇的。下一步，他们团队也将在非结构性数据、小数据、弱监督、高效模型等方面探索广义深度视觉。此外，团队还将与企业深入合作，为相关产业发展作出贡献。

编辑张克