百度地图多栖组合采集模式在香格里拉曝光

【听杨姐说】

如果问有什么工作让你开车在全国旅游,公司管吃管住报销油钱,每天去欣赏不同的风景线,天一黑就可以收工且有人还发工资,一不小心还能玩很多高科技产品,甚至可以出国做技术输出——那恐怕就要算是百度地图的数据采集员了。

百度地图数据采集某小队罗振昌队长从2014年进入百度至今,一直在做百度地图的数据采集,他说自己是那种不喜欢被束缚在一个地方的人,就喜欢天南海北地走,所以,这个工作一干就是很多年。

百度地图多栖组合采集模式在香格里拉曝光

下雨了,罗振昌赶紧爬上采集车,把 360 度的摄像仪器收起来

当然,做百度的地图数据采集,也不是毫无“痛点”,比如罗振昌和他的同事们必须知道要怎么应付“朝阳群众”那一类的“大妈”,因为会有人看到百度地图的数据采集车而去报告派出所怀疑他们是“间谍”,他们也会遇到不理解的人阻止进入某个区域,然而他们还会遇到孩子们向他们敬神圣的少先队礼。

而且,如果某个地区人烟稀少没有一个店铺,没有采集到POI就不算工作量!难怪百度地图上海分公司总经理刘玉亭会开玩笑说,他们是靠天吃饭的,采集员的业绩、薪酬主要是依据产出为衡量,所以他们到一个地方不信佛也要拜拜佛,希望天气好一点,天气好如果不作业就会感觉在犯罪……

像罗振昌这样的采集员在百度地图团队有300多人,他们大致分为三个中心,北京、上海和顺德。这些采集员大多是“全能高手”,十八般武艺必须全部精通:无人机、开汽车、骑自行车、背包采集……

这两天,杨姐和他们混在一起,仔细了解了一下百度是怎样不惜重金来做地图的——其实,百度的地图要分为两大步骤,第一是多栖组合的数据采集,第二是后期的人工智能数据处理。

摄你没商量

先说数据采集——这次我们看到的是一种“多栖组合采集模式”。百度地图大概用五种方法来采集,无人机主攻那些不容易进入的区域;汽车是跑道路;电动自行车是狭窄路段、胡同采集;全景采集背包适用于室外的景区采集,室内则必须是室内采集背包了。

一,首先说说无人机——体积小,但功能强大。

百度地图无人机是百度在景区这样的场景中采集数据的杀手锏,尤其在香格里拉这样的海拔高且多山、多河流的景区,正是无人机大展身手的舞台。此外,在城市的快速立交桥等通行速度快且路况复杂区域,无人机也能发挥精确捕捉数据的长处。

百度地图多栖组合采集模式在香格里拉曝光

百度地图有多种无人机做采集

二,再说说百度地图数据采集的主力——全景采集车。

百度地图多栖组合采集模式在香格里拉曝光

百度地图全景采集车

百度地图上海分公司总经理刘玉亭介绍,百度地图采集车都搭载了“GNSS+IMU”、成像系统、Lidar点云系统等核心设备,全面实现了采集自动化和集成化,并通过语音交互提高采集效率。

改造一辆这样的采集车光设备就需要投入30多万元,目前百度有250多辆,在全国应该是最多的,它承担着百度地图全国的基础道路信息、全景和高精度地图数据的采集任务。

但百度的这种采集,并不是傻傻地记录,而是一种在图像识别、深度学习等人工智能技术的加持下,全面实现采集自动化和集成化的1人“驾车+采集”模式,自动化程度在80%以上的内业数据处理,使百度地图整体数据生产效率相较以往提升了10倍!

看看里面,如果坐在车里,会有一台电脑在副驾驶的位置的:

百度地图多栖组合采集模式在香格里拉曝光

图上的每个小蓝点都是一次数据采集,每次不同方向360度拍三张图片,然后再合成一张,这些小蓝点在城市里是每个8米一次,如果是在郊外,就会被调整为12米左右采集一次。

百度地图多栖组合采集模式在香格里拉曝光

三张照片拼合起来

第三种是电动自行车!

百度地图多栖组合采集模式在香格里拉曝光

别小看这辆自行车,百度地图数据采集团队在自行车上安装了各种数据仪器,还在座椅后面加装了蓄电池,这样这辆车每天可以走80到100公里——车上的SD卡是64G的,他们每天带回来的数据都在40G以上的视频。

百度地图多栖组合采集模式在香格里拉曝光

自行车上的这套仪器值 1.5 万元

百度地图多栖组合采集模式在香格里拉曝光

操作员可以从扶手那里的两个绿色按钮处一边操控仪器,一边骑车

这样的自行车百度现在有30辆,但很快就会发展到120辆,每辆1.5万……它的使命主要是采集POI!

第四种,全景采集背包!

百度地图多栖组合采集模式在香格里拉曝光

这种背包式的,一共30斤左右,头顶上有三台单反,背后一台笔记本电脑,下面还有一个什么装置,背起来沉得……那叫一个酸爽!不过,这个东东个头虽然大,操作却很便捷,采集员背上后通过遥控器即可操作相机进行自动拍摄。

百度地图多栖组合采集模式在香格里拉曝光

据说这一套下来大约要 30-40 万成本……话说每天身上背一辆宝马 3 系是什么感觉?

第五种,室内地图采集背包。相对来说,这个就轻松多了,也帅,走在外面跟个流浪的吉他手一样!

不过千万别小看它。它里面装备有百度地图完全自主研发、业内首创的点云系统全景采集设备,拥有多项专利技术,从而彻底摆脱了以往通过制图软件进行人工采集处理的方式,采集员只需要背着采集设备行进,即可自然而然地生成3D模型和平面图。

百度地图多栖组合采集模式在香格里拉曝光

但其实里面是摄像头

大家懂了么,这就是“多栖组合”采集模式的好处,采集员可根据各类地形环境进行采集操作,立体式覆盖、一网采集所有类型数据,而且这种模式一方面可以保证数据的丰富性、完整性和准确性,全面提高数据采集效率;另一方面,这种立体采集组合模式,也为内业的数据处理带来了便捷。

当然,百度的创新还不止于此,在全景背包采集方面,以前都是单人步行背包采集,但是这次在普达措国家公园碧塔海,百度地图创新性地在船上开展湖面全景采集,大大丰富了普达措国家公园的全景数据。

百度地图多栖组合采集模式在香格里拉曝光

但通过“多栖组合”采集模式采集回来的图片、图像、视频、语音标注混合起来,还要经过百度大数据后台的“人工智能”学习,把他们一一识别出来,并且最终合成到地图上,才能最终大功告成!

“她”认识你

接下来必须说的就是百度怎么用机器来处理这些数据了——要不累死了也搞不完。

其实,在我看来,百度的地图,很大程度上是利用了百度此前积累的图像识别、深度学习……等等技术——其实这也是一道技术门槛!

举个例子,百度地图的系统率先会通过图像深度学习自动筛选功能,从采集的影像中快速自动识别道路特征、提取轮廓并绘制形状,补充车采盲区部分数据;而全景图像自动识别技术,机器精准识别目前人工可目视的道路图形标牌、地面车标以及文字标牌;多源数据自动识别差分融合工艺,将外业实采的不同形式数据与合作数据等多源数据实现程序的自动识别差分、属性自动融合,从而减少人工工作量。

就拿香格里拉地区数据举个例子,室内数据处理的流程是这个样子的:

第一步,基于内业平台采集和编辑室内点云数据、WIFI数据和Ibeacon数据,一次拼合建模成功;第二步,通过自动化模型降噪、成图技术去除室内动态干扰、玻璃反射、噪点等因素;第三步,通过自动化导航线生成技术,自动生成导航。

据了解,这两天百度地图还通过全景采集了2014年火灾后修复过的独克宗古城,该全景图将在十一前上线,大家可以在第一时间感受到拥有独特民族特色的独克宗古城新貌。

杨姐点评:

百度地图是平时我用的最多的地图,这次跟随数据采集团队来实地考察,才了解了其中很多具体操作方法,工作人员此中的艰辛可谓不足为外人道也。

在这里,我们不得不面对一个问题,为什么老有人说百度地图不准!例如某个饭店不在那里了,例如这里本来没有一道墙,结果现在我过不去了,由此就会引发很多人吐槽。

实际情况是,尽管百度地图采集数据覆盖全国所有城市,能实现 670 万公里道路里程覆盖,尽管百度地图拥有超 4500 POI 数据、 7 亿余张全景照片,道路阻断等重要要素信息可实现分钟级上线、新路段天级上线、重要城市数据周级更新……说句实在话,他们确实也很难做到100%正确尽善尽美!

因为,每年城市中街道上的店铺大约有 20% 都会变化,有的搬迁了,有的倒闭了,有的换东家了,有的被拆掉了,有人要盖一座墙,有人要挖一条沟……

其实百度不是没有想过众包——“地图淘金”。这是百度地图在2013年推出的一款众包类POI采集产品,通过做任务发放奖励,激励用户做采集。2015年,地图淘金实现了一年内回收数据1500W,新增POI340W个,让每条POI采集成本缩减了300%,大大提升了地图数据更新的频次和覆盖范围。

其实很简单,就是发动老百姓拍门脸,现在已经有人赚了 18 万元!但显然,大千世界,变化是永恒的,数据采集不可能跟变化一样及时!而那些因某一次不准而否定百度地图全部的,估计百度也只能“呵呵”了。

但到目前为止,能像百度这样在地图上投入并且真正做地图的,恐怕也越来越少。而从网络虚拟世界到现实世界的这一步,似乎也没有更“讨巧”的办法——它就需要一个 POI 、一个 POI 地区采集,偷不了懒!

百度更能比别人省的,还有数据后期处理——用服务器!听说百度有 1 万台服务器每天专门就是处理这些数据用的。

而人工智能技术在数据处理及大数据分析方面的应用,才是百度地图效率和竞争力的根本。

【小白不菜】微信号:xiaobaibucai521

我们是小白,但我们不是菜鸟!

荣获2014年最佳自媒体

媒体训练营2014最佳自媒体

百度知道认证专家

2015媒体训练营年度媒体之星

您可以在百度百家、今日头条、QQ公众账号、腾讯新闻客户端、网易新闻客户端、网易云阅读……等平台同时阅读,您还可以在领先的“蜻蜓FM”上“听”到这些精彩内容

随意打赏

提交建议
微信扫一扫,分享给好友吧。