院士高文：城市大脑易患自闭症，数字视网膜是良方

亿欧网 • 5年前扫码分享

11月19-20日，以“动能焕新·智慧融合”为主题的世界人工智能融合发展大会在山东济南隆重召开。在11月19日上午的主论坛上，中国工程院院士、新一代人工智能产业技术创新战略联盟理事长高文作了主题为《智能交通与数字视网膜》的报告，为到场观众分享了数字视网膜的原理及其在智能交通领域的应用。

85%到90%的城市数据是监控视频数据，超大数据量却有着超低价值密度；基于当前的城市大脑架构，城市大脑容易患“自闭症”和“癫痫”。高文指出，借助数字视网膜的三个特征，我们不仅能优化城市大脑，还能为智能交通提供更好的解决方案。

以下是高文的报告原文，亿欧在不改变嘉宾原意的基础上，进行了编辑。

今天我和大家分享 如何利用传感和计算系统做好智能交通 。我的演讲分为三个部分：第一， 什么叫数字视网膜？ 它是为了利用视觉云计算解决当前系统的问题才提出的。第二， 数字视网膜在智能交通中的运用 ，最后是总结。

传统城市大脑架构带来的问题：超大数据量，超低价值密度

如果要借助系统把视频里的内容协调起来,需要要解决三个问题：为什么，怎么做以及具体的概念是什么。不管是数字视网膜还是图像、视频处理都经过了长期的演化路径。以前处理能力不强的时候，摄像头或者传感器和处理器挨得很近。随着摄像头价格降低以及云计算的出现，二者才拉开距离。

一个城市有若干个分存储器，一个总中心，最后所有的决策分析都要在总中心来做。但是数据是从最末端的每个摄像头汇总到分中心，最后到指挥中心。数据是如何传输的？以前，摄像头拍的东西直接送回，需要的带宽太宽，费用太高，所以用编码器压缩后送回，然后存到分中心。送到总中心后，需要进行解码，提取出有用的特征，再进行分析和识别。以前用手工特征和基于手工特征的分析识别系统来做特征提取和分析识别，现在基本都用深度神经网络来做。

绝大多数城市大脑运用这样的分层组织架构，只要有足够的算力是没有问题的。中间是云，从最底层的存储到中间有一个数据交换的平台，再上面是算法平台，最上面是服务平台。存储直接连接前端传感器接收的东西，比如摄像头拍摄的内容。但这种系统的效率却较为低下。什么原因呢？现在的摄像头拍下内容压缩后，会送到云端进行解码，再进行特征提取和分析，这种做法很难做到实时。

为什么公安、交通等摄像机网络很难实时？现在系统加了很多智能摄像头，摄像头本身可以识别车牌或人脸再把结果送返，但是这种架构其实是并不对的，因为这样做解决了小问题，却带来更多大问题。大规模的摄像机网络数据非常大，但它并不是大数据。这些摄像头拍下来的东西，很难形成对整个城市的规划改进有帮助的数据。数据最长存三个月，有的可能存两个星期，就被覆盖掉了，这是非常浪费的事情。

第二个问题。数据也是一种生产资料，当你有足够的数据，你就有了财富。但是城市监控的视频数据例外，因为在现有的体系下，很难把价值发挥出来。现在城市里的数据85%-90%是监控视频数据，但是真正对城市管理做出贡献的这部分数据基本发挥不了作用。超大数据量，却有着超低价值密度。

怎么让它更有价值呢？我们要想出一些可以应用在摄像头上的技术，把有用的数据抽取出来，送到云里，将来在云里可以处理，也可以长期存储。要想做到这一点，首先看架构和我们想达到的目的到底有没有矛盾。矛盾就是现在摄像头干的活要么太多了，要么太少了。不做特征提取的摄像头几乎对形成大数据没做贡献，直接识别人脸贡献量并不大。

城市大脑系统最容易犯 “自闭症”和“癫痫症”

监控视频有两种用法，一种是由人亲自看，另一种是用机器分析。现在机器分析做演示挺好，但是常规的也用机器分析，如果前端不支持，完全靠云，需要的大量的算力。我们眼睛效率非常高，有没有办法让计算机识别学一学生物系统的眼睛？

眼睛通过视网膜获取光学信号，视网膜里有两种比较关键的细胞，感光细胞和锥状细胞。我们平时看东西都是通过这些细胞把信号收集来，传到大脑去。眼睛视网膜的和最后传到大脑里的细胞数存在差值，眼睛视网膜细胞数是后面脑区接收的数量的126倍。也就是说，视网膜上有126个细胞，最后汇总到连接到脑的一个神经元上。人的视觉系统，在传达信息时经过若干层，每传一层信息就进行缩减，一直传到脑神经的连接地方。这就给我们一个很好的启发：脊椎动物视网膜设计得非常巧妙，这种结构对视觉认知非常有帮助。

城市大脑反而比较像病态的人的视觉系统。从神经系统解释自闭症和癫痫症的根源，自闭症就是人一生下来，末端神经和脑端的神经几乎全连接，神经系统所有的连接都相似且都连着。婴儿接受外界刺激、学习的过程，实际把全连接的网络进行了增强和剪裁，有些连接变得越来越粗，有些连接慢慢就萎缩掉。一个正常的孩子，该衰减的衰减，该增强的增强，最后是正常的。如果小孩在发育的时候没有经常进行剪裁，这个孩子长大以后就会犯自闭症。

现在我们的城市大脑系统，没有进行任何信息的提取，每个摄像头在系统里同等重要，这是一个“自闭症系统”。如果有的摄像头特别重要，比如有的摄像头能识别出车牌号，这些连接就太粗壮，系统很容易变成“癫痫症系统”。现有的城市大脑系统最容易犯的两种病，就是“自闭症”或者“癫痫症”。因此，我们需要有一个系统，像人的视觉系统一样，把信息汇总以后，缩减以后再往上送。

数字视网膜的三个本质特征

数字视网膜有八个最主要的特性，我汇总成三个本质特征。

第一个特征叫做全局统一的时空ID。每个摄像头只要送信息回来，马上就知道时间和物理地点。

第二个特征，视网膜本身要有高效视频编码的能力，高效特征编码的能力和联合优化的能力。现在有很多视频编码的标准，像AVS标准，MPEG4等。特征编码，有CDVS标准，CDVA标准等。如果在一个码流里，同时要监控视频编码和特征编码的话，要有一个办法让它们可以联合优化。

第三个本质特征，就是模型可更新，注意可调节，软件可定义。我们现在都是用神经网络模型做特征提取，随着时间推移可能会有新的算法出来，需要把模型升级。而以前的摄像头，芯片做成以后，算法无法升级。注意可调节，同一个画面里的东西，我们可以赋予它感兴趣区域这样一个功能。软件可定义，可以通过软件升级来实现。

不像传统的摄像头有一个流，视频压缩流或者识别结果流。新的数字视网膜实际有三个流，包括视频编码流，特征编码流，模型编码流。当然这三个流各有分工，有的在前端实时控制调节，有的是通过云端反馈进行调节和控制的。数字视网膜到底怎么用？主要通过脑眼合一的方式。来自终端的信息经过数字视网膜的处理，送到云端的，全都是用这三个流进来，有的流可以用来看，有的流可以由机器自动处理，而且是可以升级、有注意的。

在深圳，我们专门造了一个鹏程云脑做数字交通，能够建立开源生态，视频编码标准是其中的一块重要的使能技术，而且视频编码已经有可以采用的芯片。现在联盟也在做一些基于刚才说的标准的大的应用标准。关于模型，甚至模型的渗透压缩，我们也正在进行标准化的工作。

数字视网膜的第一款芯片很快就会发布，这个芯片大小如一块钱硬币，三个本质特征，八个功能全都包含在里面。这款芯片目前已经进入开发阶段，将来可能会直接进入各种智能交通的系统，支撑数字视网膜的应用。我们也在建立数字视网膜的生态，并通过产业联盟推进。

最后总结一下，数字视网膜有三个特征：全局统一的时空ID；包括高效的视频编码，高效的特征编码，联合优化等多层次的视网膜表达的特征；包括模型可更新，注意可调节，软件可定义的联合特征。 我们的一些使能技术已经做得非常不错，加上硬件和云，可以为智能交通提供一些优化解决方案。

编辑：李薇

本文已标注来源和出处，版权归原作者所有，如有侵权，请联系我们。