专访悉尼大学教授陶大程博士:弱人工智能时代,如何让机器准确识别一个人?

加速会  •  扫码分享
我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  
专访悉尼大学教授陶大程博士:弱人工智能时代,如何让机器准确识别一个人?
如果说你是这两年才闻及 人工智能 一词,那么只能证明你Out了。因为早在1956年,以麦卡赛、明斯基、罗切斯特和申农等为首的一批年轻科学家,就已经共同研究和探讨用 机器 模拟智能的一系列问题,并首次提出了“ 人工智能 ”这一说法,也标志着“人工智能”这门新兴学科的正式诞生。

但很遗憾,人工智能发展了这么多年,今天依然处于弱人工智能的阶段。值得幸运的是,支撑人工智能的大数据,清晰的领域界限,顶尖的AI科学家和科技公司,都在推动着人工智能进程的快速发展。

近日,36氪就采访到悉尼大学教授 陶大程 博士。作为人工智能和信息科学领域国际知名学者,陶博士已当选为欧洲科学院院士、电气与电子工程师学会(IEEE)会士,并获得澳洲国家科学最高荣誉尤里卡奖。他所研究的两大领域是 机器 视觉与 机器 学习,研究的问题包括大规模图像数据的检索与分类、人脸识别与动画、精细化分类、人体姿态估计、行为分析、事件检测、多视角学习、多任务学习、标签噪声模型、矩阵分解、特征工程等。

不再需要设置密码,指纹便可以解锁手机;不必携带银行卡,刷脸即可完成支付;无需键盘提交问题,说出来,答案就告诉你。人工智能的目的是为了更好地服务人类。其中最重要的一环便是,如何让机器准确识别一个人。

“刷脸”时代还有多远?

手机 “刷脸”支付、“刷脸”开机等各种“刷脸”服务,其核心技术便是计算机视觉领域颇为大热的人脸识别。最早的人脸识别是以图像里面人脸器官的尺寸作为特征进行匹配。后来出现了众多基于表观的特征,又引入了一些统计的方法,例如主成分分析、变形模板和后来的线性判别分析等。2007年左右发布的LFW数据库包含有大量自然真实场景下的人脸图像,传统特征和分类器的方法不再奏效。但随着深度学习技术和大数据的引入,LFW数据库上的人脸识别准确率目前已经可达到99%以上。

那么现有的人脸识别技术是否已经攻克了所有核心问题呢?

陶博士简析了近年来很多与人脸识别相关的国际比赛,包括测试人脸识别算法在监控场景下性能的PaSC比赛,和测试人脸识别算法进行海量人脸检索性能的Megaface比赛。比赛的结果表明现有的人脸识别算法在特定应用上仍需要进一步提升,才能够满足实际需求。

但是这并未打击我们对这一问题的研究信心。通过参加国际比赛,各科技公司和高校不断地展示自己的技术实力,同时也对人脸识别的研究起到了非常大的导向作用。例如,比赛结果可以帮助很多研究团队快速分析最新的研究问题和方法,及时调整研究方向和手段,使得这个领域可以以更快的速度发展。值得一提的是,陶博士的团队在2016 年获得了PaSC的冠军,在另一国际比赛ActivityNet(大规模活动识别挑战赛)中亦收获冠军。

人体姿态估计发展这么多年,为何依然普及难?

谈及人体姿态估计,陶博士表示这是一个很传统的话题,目前研究成果不是很乐观,一方面技术成本高昂,对硬件设备高度依赖,导致难以得到推广,另一方面达不到高精度的识别。

回顾人体姿态估计的发展史,目前工业界,尤其是电影制作行业,最常见的技术是Motion capture(动作捕捉),也就是通过穿戴多个关键点传感器,并记录其对应三维空间坐标来实现捕捉人体的动作姿态。但是,目前使用Motion Capture系统的成本非常昂贵,而且需要穿戴特殊装置才能使用,因此该技术难于得到推广。

近些年来,通过获取场景中的深度信息来估计人体姿态也有一定的进展,但该技术也依赖于硬件设备例如深度摄像机 Kinect或者双目摄像机,而且深度信息的获取易受环境因素影响(如光照等);由于以上技术对硬件设备高度依赖,因此无法处理普通摄像机拍摄的视频。例如当我们需要通过估计Michael Jackson视频的姿态来辅助舞蹈训练,由于这些视频都是通过普通单目摄像机录制的,因此无法直接使用上述的那些方法。

在陶博士看来,人体姿态估计最大的技术难点在于如何去捕捉这些关节点的局部外观信息,以及如何通过学习他们之间的空间关系进行建模来实现精确定位。

因为就目前来看,人体姿态估计的方法主要是通过精确定位人体活动关节点的位置来估计人体的当前姿态,例如肩关节、髋关节。但是由于人的着装会变化,身体形态也会变化,偶尔还有遮挡的情况,这些因素都带来了极大的挑战。

在今年的刚结束的与Imagenet联合举办的COCO人体关键点定位比赛,Mean AP 在标准集的评估最高只有60.5%。值得一提的是,在这次比赛当中,陶博士的团队提交了一个快速模型的结果并获得第三的名次(仅次于CMU和谷歌)。赛后他们提交了正常模型的结果,在标准集的评估获得了61.8%的Mean AP。

多视角学习,让你不再重蹈“盲人摸象”

人体的很多特征都可以被用来进行个人身份的识别,包括指纹、虹膜、人脸以及步态等。然而哪种特征能够最好地帮助机器准确识别一个人呢?

在陶博士带领团队研究的过程中,他发现描述一个物体、一个事情的时候,可能需要多个角度来描述,这个就类似于盲人摸象,不同的角度会得出不同的结论。如果所有盲人能够进行有效的沟通,把所有的结论综合到一起,就有可能得到一个大象的完整刻画,这就是为什么要进行多视角学习。

“多视角学习的目的就是把这样多种不同类型的信息融合在一起:既要避免融合后的信息缺失,又要去除不同类型信息中的冗余和噪声,有效帮助机器更准确全面的去理解、处理我们的问题”,陶教授告诉36氪。

他同时表示,因为有不同类型的传感器,不同类型的特征,每个传统器或者每一个特征对于一个事件或者物体的刻画,实际上都是局限的。

“如果能够把这些信息有效的整合在一起,就能够给出一个物体或者一个事件合理、有效的刻画”,陶博士说。

陶博士的团队用理论分析表明组合多个视角将为完好空间的学习带来足够的信息。同时,借用鲁棒统计的知识,使得算法能够增强对野点的鲁棒性。“我们提出了一个新的多视角稳定性的定义,并在多视角稳定性和函数空间复杂度的基础上分析了算法的泛化能力。我们发现多视角之间的互补性能够有利于改善算法的稳定性和泛化性”,陶博士这样概括他们团队取得的最新进展。

但是所获取的、所采集到的数据可能会有噪声或损坏情况,这将导致不同的视角信息是不完整的或者是受干扰的。

为了让这种学术上的概念更容易理解,陶博士举了这样一个例子:

这就好像卫星在天上绕着地球转,扫描地球表面的信息,实际上卫星的载荷由前视、下视和后视传感器组成,每一个就是我们其中一个视角,某一个传感器坏了之后我们不能把卫星舍弃,但卫星成像时获取的视角信息就已经是不完整的,是缺失的。

那么一旦遇到这种情况该如何解决?办法倒是有,陶博士的团队已经在尝试了。

陶博士表示,解决不完整视角学习问题的关键是挖掘多个视角之间的联系,使得不完整的视角可以在其它完整视角的帮助下恢复出来。通过假设不同的视角可以由一个完备的空间生成,得以完成不完整视角下的多视角学习。

事实上,以上讨论了这么多技术性的干货,都逃离不了机器学习、计算机视觉的范畴。这些技术迄今为止落地能够被我们感知的非机器人莫属,中国的机器人创业更是此起彼伏。

陶博士则认为,每一种创业模式都是值得的,前提是你的创业方式能够匹配你的创业目标,同时还应该尽可能的满足其他创业模式对外界的需求,软件的发展需要硬件的支撑,平台的发展更是需要软硬件相结合。

“Android、Linux之类的开放平台的成功告诉我们,机器人的发展是需要大众的,而不只是某些高科技人员的小团体”, 陶大程 接着说道。

但问题是,在当下弱人工智能的时代,暂且不提怎样能够使得机器识别一个完整的人,就连一个几千块的机器人都很难有人买,更别提大规模普及。

陶博士给相关的创业者们提出了一些建议:

  • 硬件方面,希望机器人能够拥有较高的自由度,从而向用户展现出最直接的视觉美感,更好的贴近人类生活会更容易让人产生情感和信任;
  • 软件方面,智能机器人都会拥有自己的操作系统和平台,我们需要考虑的就是如何让更多的应用嵌入到机器人平台上,使机器人能够不断的更新自我;
  • 在销售机器人的时候,提倡一种在IT界广为流传的社区文化,将机器人平台像iOS、Android那样向用户开放,吸引应用开发者进来,推动机器人平台的发展。

最后,谈及中国与国外科技公司在人工层面的差异,在国外生活多年的陶博士表示,以往科技发展历程中,中国的科技公司都是通过引进国外的科技才完成产品的研发,这样的现象曾经存在过,但是在当下的科技潮流下,中国公司在人工智能领域的研发能力已经非常可观。

“很多先进的技术现在也都被华人所了解和掌握,甚至突破,这可以从每年人工智能领域的顶级会议中看到”,陶博士补充道。

所以他认为,中国人是有能力研发出世界领先水平的先进的人工智能系统。中国公司想要在科技潮流下生存下来,重要的一点就是如何聚集到一批专业的人工智能研究人员,利用最先进的技术,来帮助公司产品的研发。

   



本文被转载1次

首发媒体 加速会 | 转发媒体

随意打赏

悉尼大学
提交建议
微信扫一扫,分享给好友吧。