中科院王亮：基于视觉大数据，我们下一步该做什么？

亿欧网 • 6年前扫码分享

4月8日，在北京航空航天大学新主楼会议中心，由北京图象图形学学会主办的“第十三届图像图形技术与应用学术会议”中，中国科学院自动化所博导、研究员、模式识别国家重点实验室副主任王亮与我们分享的论坛报告《Analysis and Understanding of Big Visual Data》，对视觉大数据领域有更为全面和透彻的分析，也让我们对视觉大数据分析有清晰地认识和了解。

AI技术现在已经进入了一股热潮流，与AI相关的应用领域也犹如雨后春笋般层出不穷。例如在实地应用场景方面，安防领域是落地场景最早的应用领域，除此之外，还有机器人、无人机、医疗、智能制造等方面，对于AI技术的应用落地，后期也会出现过江之鲫的汛势。 在人工智能如此兴起的时代，计算机视觉也是个可关注可实现的重要层面，它所涉及到的视觉大数据分析领域非常具有研究意义。

无处不在的视觉监控

从王亮的会议报告中了解到，我们在感知外部世界的时候，至少有70%的外部信息都是来自于视觉，所以计算机视觉是一个非常重要的研究方向。从第一台光学成像设备产生的那一天开始，人们就在不断的改进成像系统，包括现在的红外成像、RGB成像、深度成像和雷达成像等等。希望能够更加真实的记录这种客观世界，同时也希望借由不同的成像系统、从不同的角度、不同的时刻能够记录我们看到或者看不到的现象。

所以说，随着成像设备的不断更新，视觉大数据时代已经悄然到来。在我们身边最明显的例子，就是无处不在的监控摄像机，到处都是CCTV camera系统。与我们每个人息息相关的，就是这样一个无处不在的视觉监控。

另外一个方面，视觉数据打造了一个爆炸性的时代。比如说我们每一天大概有300万左右的新图片产生，而每一分钟大概有50小时新的视频产生，再比如说，每一天，我们的监控视频有350TB这样产生的一个过程，每一天进进出出的任何一个交通安全的场合，都有成千上万的这样一个生活数据产生的过程。所以说，视觉大数据已经到了这样一个爆发的时代。

当然，视觉大数据在很多领域有非常重要的应用。有两个例子，一个是在监控领域数据的一个增长，以及视频监控在当前一个工业输出的市场占有量的情况，再比如说，我们平时看爱奇艺这一类的在线网络视频。对于这样一个过程而言，它消费的规模也是随着逐年在增长的。虽然我们进入到了视觉大数据这样一个时代，而且视觉大数据在很多领域都有它潜在的应用前景或市场。但是，真正来讲要做到从大规模的视觉大数据中有效的去采集去分析或者去理解为我们所用的信息，还是比较有挑战性的研究工作。

视觉大数据可以简单归纳成四个“大”：

一、在规模上的一个“大”数据集；

二、在视频数据的类型方面的变化“大”，比如说新闻视频、广播视频、体育视频、娱乐视频等等；

三、在属性方面，可能具有多元和益智的特性，比如说红外线成像、RGB成像等；

四、在图像或者是视频质量上的千差万别、“大”不同，比如说光照的变化、姿势的变化等等。

正是因为这四“大”，所以给视觉大数据的分析也带来了一些挑战性的问题。但是大数据分析的应用前景非常广泛，比如视频监控、安全入口的安全检查、信息滤波、无人机无人车、机器视觉导航等等。可以说，视觉大数据的分析和理解是非常重要的，在近年来也开展了许多与其相关的学术研讨会议，比如说《Big Vision 2012》、《BIG DATA COMPUTER VISION 2013》等等。

大数据时代的挑战与机会

近年来，人工智能再次兴起，而它的两个主要的驱动力分别是高性能计算和大数据。大数据这个名词在前些年的使用是非常广泛的，而且很多地方都成立了大数据相关的科研机构或者学科。可以说，高性能计算和大数据时代也导致了深度学习的复苏。深度学习以前本身只是一个神经网络，而神经网络本身的两个缺陷：一个是皮层复杂度比较高，另一个就是小规模的数据集容易导致模型的吻合问题。大数据时代的到来，高性能计算的飞速发展，使得深度学习恰恰能够满足了那两个弊端的问题。

所以深度学习是在高性能计算和大数据两个关键技术到来的情况下，得以复苏，而且驱动了很多领域的快速发展，包括计算机视觉、图形学、语音语言处理等等。视觉大数据在很多方面也取得了巨大的成功，包括语音、语言处理等，热点在表达学习，利用强大的神经网络的深层次的分层级的表达学习的能力，来代替传统表达的一个过程。

2012年，ImageNet网络的使用使得准确度从74%浅层的网络模型，到85%深度学习模型这样一个极大的提高。所以在2012年以后，卷积信息网络在我们计算机视觉的图像与视频更一级的理解过程中发挥了重要的作用，比如说在人脸识别方面，在目标检测方面等等都有很广泛的应用。但是CNN有一个巨大的特点就是，只能够有效的处理比较有结构化的数据来源，比如说图像信号等，但是在时序建模方面，相比于其他的时间模型来讲，还是有缺陷的，所以在2015年前后的时候，循环神经网络再次引起大家的注意，所以RNN在不同的应用场景得到了广泛应用，比如说行为识别、看图说话的图像、视频描述等等。