项目来了 | 学会看视频,深圳团队给机器一双“慧眼”

读特记者 袁斯茹
2020-03-29 10:06
摘要

现在的AI不能像牛顿一样,看到苹果落地就联想到万有引力。但目前AI可以做到的是,当看到一万个苹果同时落地的视频,可以判断出苹果落地这一动作,并快速找出苹果们的不同之处

人工智能是否能像人一样看懂世界?答案是还在学习中。现在的AI不能像牛顿一样,看到苹果落地就联想到万有引力。但目前AI可以做到的是,当看到一万个苹果同时落地的视频,可以判断出苹果落地这一动作,并快速找出苹果们的不同之处。

近日,深圳先进院数字所所长乔宇告诉深圳商报记者,自己的团队就致力于让计算机看懂世界,并且已在AI分析视频上取得成果,其联合深圳商汤科技有限公司、南京大学研发完成的“视频的深度表征与识别技术及应用”项目,于本月25日获得2019年度广东省科学技术奖的技术发明一等奖。

视频信息太多,人眼看不完

目前我们正在进入视觉信息的大信息时代,人们每天仅在微信上上传图片、分享视频就达到数十亿次。此外,还有一个很大的视觉信息来源是监控摄像头。据统计,2018年我国已安装了超过1.7亿个摄像头,每分每秒都有大量数据产生。

“由于手机、4G/5G网络的普及,对于视频数据的采集、传输和存储都有很大的进展,”乔宇告诉记者,“现在最大的技术瓶颈是视频内容识别分析,即计算机不能像人一样去理解和识别图像的内容。比如一旦发生案件,还是需要人力去阅览大量监控视频。”

团队首次提出时序分割网络

2012年,谷歌收集了1000万张猫的图片,并且使用了16000个CPU,让计算机反复学习这些图片,一星期后宣布他们的计算机能识别猫了。

此后,随着技术的发展,计算机视觉的学习比之前更快更准。但是比起图片学习,视频有数据量大,内容更加复杂多变等特点,一秒钟的视频就达到20-30帧。

对此,团队提出了视频的时续分割网络TSN方法,“视频虽然帧数多,但相似画面不少,我们的方法将视频的分割采样与卷积特征提取统一到同一个框架,实现了全视频端到端的训练。”

乔宇表示,比起平面的图片,视频数据更像一个立方体,视频深度网络可以看做是在这个立方体的XYZ轴上进行多层特征变换,并抽取到有用的特征。“视频数据的特征是动态变化的,人为设计的分析方法可能跟不上这些变化,因此分析结果容易出现偏差,”乔宇告诉记者,“而深度学习方法可以直接从视频数据中学习出有效的特征,并根据应用进行不断调整。”

此外,针对短视频,团队也提出了对应的分析方法,这一套视频长短时表征与识别方法,显著提升了复杂视频行为分类、大规模人像识别、物体检测、场景分类等视觉重要任务的性能。

技术已有广泛应用

据悉,这一技术在多个著名视觉数据库的验证下取得了同期国际领先的识别率,并在ImageNet、ActivityNet等重要视觉国际竞赛多次取得第一或名列前茅。根据谷歌学术统计,相关论文累计被引超过8000次,获国内外授权发明专利10余项。

此外,这一技术在智慧城市、机器人及互联网等领域已有广泛应用。例如在公共安全方面,可用于分析公共场所的监控录像,帮助寻找走失人口、犯罪嫌疑人等,此外,还能用于异常行为识别等。

采访中,乔宇特别分享了一个目前在深圳等城市已推广的应用:检查城市排水设施。“城市疏水管道基本都在地下,而且数量庞大,管道之间相似度高,人力检查不仅效率低,还容易出现疏忽。如果利用机器视觉,由机器人先拍下城市下水管道视频,交给AI来分析,可以很快找到出了问题的管道。”乔宇表示。

(深圳商报供稿)

编辑 梁佳彤

(作者:读特记者 袁斯茹)
免责声明
未经许可或明确书面授权,任何人不得复制、转载、摘编、修改、链接读特客户端内容
推荐阅读

读特热榜

IN视频

鹏友圈

首页