腾讯AI Lab张潼:内容AI的未来,视频是方向

亿欧网  •  扫码分享
我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  
腾讯AI Lab张潼:内容AI的未来,视频是方向

作为一家互联网巨头腾讯 的诸多业务中早已充满了AI技术的身影,类似微信中的语音识别,天天P图中的图像处理,相比起一个明确的「AI产品」,腾讯拥有更多「拥有AI助力的功能的」产品。

然而在成立单独的部门,集成公司内部与 人工智能 相关的研究力量方面,腾讯走得并不着急。2017年3月,腾讯 AI Lab 在深圳举办了首届学术论坛,同时也正式宣布顶级 机器学习 专家、前新泽西大学终身教授张潼博士出任实验室主任。

一年过去了,在腾讯接连取得60%左右的收入同比增长的同时,低调而神秘的AI Lab也通过数量稳定增长的顶会论文和表现优异的产品逐渐走向公众视野里。

2017年12月底,我们来到深圳,走进腾讯AI Lab,与张潼聊了聊,这无论对于他自己还是对于腾讯AI Lab来说都充满变革的一年。

以下是机器之能对张潼的专访实录:

AI Lab:一年时间,从零到一

您加入AI Lab已有一年,有哪些收获和体会?

我们花了一年时间从无到有地建立起AI Lab,这个过程很快,建成的团队很强,也确定了专注的方向。 现在AI Lab的四个基础研究方向,包括计算机视觉、语音识别、自然语言处理和机器学习四个部分。

目前进展还不错,一方面,我们有相对于国内研究机构来说比较多、也比较全的论文,发布在各大顶级的学术会议上,包括CVPR、ACL、ICML和NIPS。另外我们也开始和工程人员合作,慢慢摸索出一些比较好的研究人员和工作人员的协调模式,使得众多技术和项目能够在公司中落地。从这两个角度来看,这一年状态不错,希望明年更好一些。

AI Lab内部的组织形式是什么样?

根据主攻方向不同,我们内部有很多中心,一部分做研究,另一部分做跟产品有关的。各个中心之间都有合作。纯研究的中心会相对小一点,十多人左右;工程产品导向的中心可以有几十人。科学家和工程师在不同的组里,但会交叉比较多,很多时候不同的人通过一个项目联系在一起。

AI Lab的课题如何产生?流程是什么样的?

流程大多是从上到下的。我们首先会和团队负责人一起讨论,确定大方向:如果觉得一个方向是重要的、应该做的,那么一些人去做这些。也有少部分是从下到上,由成员提出自己的研究主题。

刚才也提到我们的研究人员比较全面,所以我们确定方向后可以直接在Lab内部找到和题目相关的研究人员。

在语音、图像、自然语言和基础研究方向上,AI Lab具体会关注哪些细分方向?如何选择关注的重点?

我们的关注相对比较均衡,具体到几个方向里:

实验室在视觉方向的一个重点是视频的的理解和分析。视频比图像稍微复杂一些,是一个学界最近关注比较多的问题,而由于最近短视频类应用越来越多,对相关算法的需求也比较大,出于这两点,我们对这块投入了比较多精力。除此之外我们也关注物体识别、面部识别等基础能力的建设,同时做一些滤镜等产品相关的项目。

语音方面,我们比较关注远场的能力,主要考虑到与 智能硬件 的配合。腾讯AI Lab副主任俞栋博士加入后,在这方面研究以及整体系统的建立上花了很多的精力。例如他的一个项目就重点关注鸡尾酒会问题,在有噪音的情况下如何把声音分离。

在NLP里,我们关心的第一是基础NLP的理解,第二是对话,尤其是开放域对话,第三是自然语言的生成和创作。

最后是机器学习,机器学习对数据的依赖性很大。我们会关注大规模计算问题,就是数据量大时如何解决计算力问题,大规模机器学习的平台建设,注重偏上层的机器学习算法与机器学习能力。到了数据量很小时,我们关注AI的迁移性、鲁棒性和更好的学习方法。我们关心的是此外还有模型相关的研究,以及强化学习相关的研究,包括强化学习与游戏的结合。业界也在一直探讨和关注,是否有新的模型,能更好学习新的结构,比如循环审计网络(RNN)、注意力机制(Attention)、强化学习等。

在选择方向的时候会考虑与公司的一些现有问题相结合。比如推荐系统的大规模机器学习,或者和图计算、网络与网络结构相关的大规模计算。虽然研究的问题偏算法,但底层架构也要自己重新设计。

以视觉举例,为什么会选择「视频」这个非常专的关注点?在「识别」这种比较成熟的领域,AI Lab的研究重点又会放在哪里?

内容AI是腾讯AI Lab四大研究方向之一。 我们认为内容AI的未来,是对多媒体内容的理解和生成。视频是多媒体的典型,它集合了图像、语音、文字和动画等,包含大量的非结构信息,研究上非常有挑战性。 另外视频在互联网内容生态上变得越来越重要:一份国际报告显示,到2021年,视频占全球个人互联网流量的比例,将从2015年的70%增长到82%,成为信息的主导载体。

腾讯拥有中国最大的视频平台,但视频的相对技术还不太成熟。因此,我们正好自己把这个建起来。我们还有很多「研究到应用」的例子,比如视频的实时滤镜,基本上研究出来就可以上了。

在识别这样的领域,我们一方面根据自己的特长来建设基础能力。比如我们有更多数据,可以利用一个大的数据集,做更细致、质量更高的分类。另一方面,我们会针对特定场景,比如人脸识别,和其他部门进行一些合作。

今年AI Lab有哪些有影响力成果的发布?

在计算机视觉方面,我们发表了不少工作,包括实时滤镜、看图说话等等。我们也会去刷一些榜,成绩还不错,刷榜的时候也会有一些算法的提升。语音方向,俞栋老师在鸡尾酒会问题上有一些成果。自然语言处理方面,有一些词嵌入等基础NLP方面的工作,也有翻译、主题分类等方面具体的工作。机器学习方面,则有一些与优化有关的,和具体模型上的工作。

AI Lab如何衡量研究成果的重要性?

我们希望研究成果本身有影响力,如果我们发文章,可能有几个标准:

第一,它够不够前沿,影响力是不是足够大。

第二,它是不是实用,能不能在实际的应用里用得上。

我们不要求一定和产品结合,我们也鼓励研究员去解决还没被解决的困难问题,去发现未知的全新问题。比如你提出了一个原创性高、影响力足够大的新方法,这也不一定要立刻用在产品里。当然,如果你的研究和产品结合可使用的话,也很好。但我们不要求一篇文章具备所有特征。

有一些企业研究院很接地气,另一些则进行了很多形而上的思考。比如Google Research有很多直面用户当下需求的工程论文,而DeepMind则进行了很多长远的研究规划。相比之下,AI Lab对自己的定位是什么?

划分两类研究组织的界线是研究成果落地与否,DeepMind偏纯研究,产生PR效果,但不直接产生收益。Google Brain的东西,甚至开源的东西,则可以拿出来直接用。

AI Lab希望两边都会有,比如我们做强化学习,一块能支持业务,和落地有关,游戏等部门对我们的工作非常感兴趣,另一块则关注前沿,走得尽可能远。

企业里的实验室:要有意识地追求前沿,也要有意识地让产品落地

从落地的角度,AI Lab的成果在腾讯的产品里有哪些体现吗?

有很多,我们和微信、搜索、推荐等各个部门都有合作。早期的微信翻译也是我们这边提供的技术。一些例子包括:

内容AI方面,艺术滤镜、肢体动作实时追踪,图片描述生成等技术落地QQ,OCR技术应用在线下支付场景,自然语言生成应用在新闻生成场景。

社交AI上我们关注新的人机交互方式。比如我们的人脸识别技术应用在智能政务的身份验证上。另外我们和公司智能硬件相关的团队合作语音和自然语言对话技术,比如电视盒子以及相应APP,我们为几千万用户提供了一些语音功能,做人机在智能硬件上的交互。

医疗方面,比如腾讯觅影,在医院里做了食道癌医疗影像阅读等项目,技术也由我们提供。

在个性化推荐方面,比如天天快报,还有其他的新闻推荐、腾讯视频等等,各个产品线或多或少都会有合作。

与工程部门的合作形式一般会是什么?

各有不同。

相对浅一些的会就某一个功能合作。举个例子,手机QQ上有一个滤镜,我们直接把技术接过去,这属于功能型的。

还有一些更加深入的,像天天快报,我们会提供很多关于个性化推荐的一些方案和整体的技术。

语音也是深入合作的一个例子,我们提供的是一个整体语音解决方案,包括从远场语音的唤醒、去噪,进一步的识别、TTS等等不同组块,我们把不同组块做出来之后,看需求如何与对方合作。

这意味着AI Lab除了帮助公司内部的研发外,也会对外进行服务开放吗?

是的,我们今年已经陆续通过腾讯AI开放平台开放了一些对外的服务,明年会把这块做得更好。目前我们还是把自己所积累的一些觉得很有用的基础能力开放出去,未来也希望和需求方进行更多互动,赋能传统行业。

赋能传统行业对于AI Lab的影响可能有哪些?

我们能够触及到更多的数据,在更多的场景下进行尝试,进一步提升能力。

腾讯的人工智能方面的三股主要力量,AI Lab、优图实验室和WeChat AI,定位上有什么区别?

优图和微信AI是属于业务部门的。相比之下,AI Lab是公司级的实验室,是一个基础的部门,有相对全面的研究力量。

比如语音识别,在实现同一功能时,我们可能更关注于智能硬件、远场等这些能力,支持腾讯内部各个BG的相关产品。

腾讯在人工智能一事上的追求和其他公司有什么不同?

腾讯与其他公司的业务场景不一样,公司的文化、需求、阶段也不一样。

腾讯特别的地方,第一是有相对丰富的内部场景,有全国乃至全球领先的社交、游戏、媒体内容到开放平台等等,这都是比较好的场景。

特别是游戏,这也是包括Deepmind、OpenAI在内很多领先研究机构的切入点,是AI从虚拟通往现实世界的重要突破口,而我们与公司内部业务结合非常紧密。

另外,腾讯除了对内业务之外,对外生态做得也比较好。腾讯与跟很多初创公司保持了良好的关系,投资布局都比较好,大家愿意和腾讯一起合作。

最后,目前我们十分感兴趣的一个话题是,如何利用腾讯的能力向一些更加专注的传统领域以赋能的形式给出解决方案。

所以,从整体来讲,公司内外,都有一个比较好的能够利用AI的整体场景。这是腾讯与众不同的地方。

大局观与持久战

2017年人工智能行业有哪些显现的趋势呢?您有哪些有趣的观察?

2017年,行业明显处于上升期,热度在持续,很多的初创公司进入这个领域。在我们涉及的几个应用领域里,都有公司在进行尝试。目前来讲,2B的业务模式居多。大家还在尝试阶段,把商业模型先建立起来,再看什么地方能赚钱,什么地方能持续。

有一些行业走的远一些,比如计算机视觉领域建立稍早,今年有很多大型融资事件。语音也有,但因为大公司都在自己做,因此后面这些初创公司需要有更多特定化的解决方案。

还有一块开始起来的是芯片,国内外的一些公司,对移动端上的和服务器上跟AI有关的芯片都很关注,这个领域以后几年也会有很大的发展。

总的来说,整个产业属于开始出现了不同的发展阶段,层次逐渐明晰。

2017年人工智能相关的学界又有什么进展?

研究方面,各大公司开始纷纷建立AI Lab,腾讯相对较早,去年成立,今年则出现了众多其他的实验室。这是一个很好的现象,说明大家都很重视。不过也意味着人才的激烈抢夺,以及需要实验室加强自我培养年轻人的能力,让他们的实力有所提升。

招人不易,我们花了不少精力,接下来我们希望能够培养起这些人才的研究能力与应用能力。花一些时间做一些项目,使这些人在做项目的过程中能够有所提升。

从研究上来看,一个谈得比较多的事情,是AlphaGo的升级。虽然它只是强化学习算法的一种衍生,但是大家已经把它上升到哲学层面了。从社会的角度看,国内有一种把AI这类偏技术类的问题娱乐化的倾向。这种变化本身有好有坏:好事,大家关注度更高,坏事,会对事情有过度和不必要的担忧。

人工智能对现有的商业逻辑有哪些实质性的改变吗?

有很大改变,特别是对效率有极大的提高,使得很多原来做不了的事情变得可行。包括利用 大数据 技术的很多系统、机器翻译和将来的无人车、自动写作。

AI Lab自身的工作为公司带来了什么变化吗?

总体来讲,最重要的是,技术的提升带来了公司整体的基础能力提升。比如,自动化推荐做得好,后面广告流量就多了,广告推送更精准,收入就变多了。

从大局的角度去看待这个问题,我们希望解决痛点问题,改变人们的生活。甚至是更大地从对社会整体的角度去看,例如智能医疗、电子身份证,AI能够实现很多对社会有益的事情。

在国内,业界表现出了对人才的迫切需求,您怎么看待人才在学界和业界的选择和迁移问题?

现在很好的一点是两边比较近,两边都有机会。学界的人也更能看到业界所关心的问题。特别在实用性问题上,学界的意识也在提高,也会考虑做的东西能否投入业界使用。

现在的深度学习比较偏经验性,所以做理论会显得比较脱节。理论不好做,然而虽然不好做,至少从意识上,也要弥补这个鸿沟,希望将来能够做好。

您今年的工作重点是什么?

2017年是一个比较好的开端,我们把AI Lab从零建立起来,接下里则主要想把整体理顺,思考如何获得更大的影响力,包括学术上的,和产品和技术落地侧的。

我们要思考哪些事情是重要的,值得我们花精力去做,同时在一些比较重要的地方有所突破。这个工作也许不是一年能完成的,在未来两三年内,我希望看到更有影响力的事情得以实现。

AI Lab的研究方面,明年有哪些规划呢?

我们希望能够发表更高质量的文章,希望能够提高国内的整体研究水平。目前从数量上来讲,国内的研究提升很快,但研究水平跟美国还有一些距离。所以我们希望数量上有保证的前提下,逐步把质量提起来。

至于提高质量的方法,课题选择和对核心问题的理解是一个比较重大的因素。研究者需要知道什么是最前沿的研究方向并且知道需要解决的核心问题,而我们对此有一些经验,会给出一些自己的判断。另外,和别人交流也很重要,知道别人在哪些方向做什么工作,甚至有一些合作,都是大有裨益的。当然,这也是一个长期的过程,需要花一段时间,慢慢提升。

随意打赏

腾讯ai lab主任张潼腾讯ai加速器腾讯ai实验室腾讯视频tv腾讯视频直播腾讯视频会员张潼 百度张潼 腾讯腾讯张潼张潼博士
提交建议
微信扫一扫,分享给好友吧。