谷歌教AI画画：会让它像人类那样思考吗？

威腾网 • 7年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

导语： 如今，计算机也在进修做同样的事情。要是谷歌辅导AI去绘画，那会有助于它思索以及像人类那样思索吗？

《大西洋月刊》（The Atlantic）撰文称，人类最迟在岩石上画图形的时辰，实现了庞大的认知跃进——如今，计算机也在进修做同样的事情。要是谷歌辅导AI去绘画，那会有助于它思索以及像人类那样思索吗？

以下是文章次要内容：

想象一下，有人叫你画一头猪和一辆卡车。你大概会画成这样：

这很简单。但接着，想象下你被要求画个猪卡车。作为人类，你会直观地想到若何将猪和卡车这两个物体的特性联合起来，也许你会画成下面这样：

看看那条小小的、弯曲的猪尾巴，看看驾驶室有点圆的窗口，该窗口也会让你想到眼睛。车轮变成了蹄状，又或者说猪脚变得像车轮。若是你这么画，同为人类的我会主观地认为这是对“猪卡车”很有创意的一种解读。

谷歌的AI 绘画体系SketchRNN

直到近来，只有人类能够完成这种概念变化，但现在并没有只有人类能够做到了。该猪卡车实际上是极具吸引力的人工智能体系SketchRNN输出的作品，该体系是谷歌探究AI能否创作艺术的新项目的一部分。该项目名为Project M Agent a，由道格·艾克（Doug Eck）领导。

上周，我在谷歌大脑（Google Brain）团队位于山景乡的办公室拜访了艾克。该办公室也是Magenta项目的所在地。艾克非常聪慧，也很礼让。他于2000年在印第安纳大学获得计算机科学专士学位，后来博注于研究音乐和机器进修手艺，一最先是在蒙特利尔大学（人工智能的温床）担任教授，后来到谷歌供职。在谷歌，他最初从事Google Music音乐服务项目，后来转到谷歌大脑团队参与Magenta项目。

据艾克说，他挨造可创作艺术的AI工具的雄心最初只是大言不惭，“但经过几轮的反复思索后，我以为，‘我们当然必要做这个，这非常重要。’”

正如他和他的同事大卫·哈（David Ha）所写到的，SketchRNN的意义没有仅仅在于进修若何画画，而在于“用类似于人类的方式概括归纳抽象的概念。”他们并没有想要挨造一台能够画猪的机器。他们想要挨造一台能够识别和输出“猪的特性”的机器，即便机器得到的是诸如卡车的提示性说话，它也能够没有受影响，作出准确的判定。

隐含的观点是，当人的画画的时辰，他们会对这个世界做抽象的概念。他们会去画“猪”的广义概念，而没有是画特定的动物。也就是说，我们的大脑若何存储“猪的特性”信息和我们若何画猪之间存在关联性。进修若何画猪，你大概就能学到人脑合成猪的特性的本领。

这是谷歌的AI软件的运作模式。谷歌开发了一款名为“Quick, Draw!”的游戏，在人们玩该款游戏时，它会生成一个涵盖人类各种各样的绘图（如猪、雨、救火车、瑜伽动作、花园和猫头鹰）的巨大数据库。

当我们画的时辰，我们是将丰富多彩、门庭若市的世界压缩成长数的一些线条或者笔画。正是这些简单的笔画构成了SketchRNN底层的数据集。借助谷歌开源的TensorFlow软件库，每一种绘图——猫，瑜伽动作，雨——都能够用于练习一种特定的神经收集。这有别于引起媒体普遍报道的那种基于照片的绘图体系，比如机器能够渲染出梵高或者原来的DeepDream气概的照片，又或者能够画出任何的外形，然后给它添补“猫的特性”。

这些项目都让人类以为很不堪设想。它们相称有趣，因为它们所产生的图像看起来就像来自人类对现实世界的考察，只管没有完全像。

像人那样用绘图表达所看到的器材

然而，SketchRNN的输出作品一点都称没有上不堪设想。“它们感觉很真实，”艾克说，“我没有想说‘很像人类的作品，’但它们感觉很真实，那些像素生成工具则没有然。”

这是Magenta团队的核心洞见。“人类……并没有是把世界当成一个像素网格去明白，而是发展出抽象的概念去表示我们所看到的器材。”艾克和大卫·哈在描述其工作的论文中写道，“我们从小时辰就能够通过用铅笔或者蜡笔在纸上绘画来传播我们所看到的器材。”

若是人类能够做到这一点，那谷歌会进展机器也能够做到。去年，谷歌 CEO 桑达尔·皮查伊（Sundar Pichai）称他的公司“以人工智能为先”。对于谷歌来说，AI是其“将全世界的信息构造起来，使之随处可得，随处可用”初始使命的一种自然而然的延伸。现在没有同的地方在于，信息由人工智能来构造，然后使得它们能为广大用户使用。Magenta是谷歌构造和明白一个特定的人类领域的疯狂尝试之一。

机器进修是谷歌所采用的各种工具最普遍的一个概念。它是通过编程让计算机自学若何实行各种没有同的义务的一种方式，常见的方式是给计算机注入标签数据来举行“练习”。举行机器进修的一种热门方式是，借助以人脑的连接体系为原型的神经收集。没有同的节点（人工神经元）会相互连接，它们有着没有同的权重，会相应部分输入信息，但没有相应别的的输入信息。

比年来，多层级神经收集被证明在办理棘手的答题上非常成功，尤其是在翻译和图像识别/操纵上。谷歌在这些新架构上重新构建了很多的核心折务。这些神经收集模拟人类大脑的运作过程，其互相连接的层可识别输入信息（比如图像）没有同的模式。低级其它层大概含有相应光明与白暗简单的像素级模式的神经元。高级其它层则大概会相应狗的脸、汽车或者蝴蝶。

构建带有这种架构和机制的收集会带来不堪设想的成效。原本极其困难的计算难题变成了调整模型的练习，然后让一些图形处理单元运算一会的答题。正如吉迪仇·刘易斯-克劳斯（Gideon Lewis-Kraus）在《纽约时报》所描述的，谷歌翻译（Google Translate）曾是一个开发跨越10年的复纯体系。该公司后来行使深度进修体系仅仅花了9个月就重新组织了一个谷歌翻译体系。“该AI体系一夜之间就有了庞大的提升，这种提升相称于老体系在整个生命周期积累的所有提升。”刘易斯-克劳斯写道。

正因为此，神经收集的使用量和范例呈现井喷式增加。SketchRNN方面，他们使用可处理输入序列的递归神经收集。他们用人们画各种没有同的器材时陆续画下的笔画来练习该收集。

用最简单的话来说，这种练习就是一个编码的过程。数据（绘图）输入之后，该收集会尝试想出它在处理的器材的一般性规则。那些概括是数据的模型，数据存储在描述收集中的神经元的倾向的数学计算当中。

那个结构被称作隐蔽空间或者Z（zed），是猪的特性或者卡车的特性又或者瑜伽动作的特性方面的信息存储的地方。正如AI行业人士所说的，叫体系做个样本，即叫它画出它练习的器材来，SketchRNN就会画出猪或者卡车又或者瑜伽动作。它所画的器材，就是它所学到的器材。

SketchRNN 能够学到什么？

SketchRNN能够学到什么呢？下图是一个接管过消防车绘画练习的神经收集所生成的新消防车。在该模型中，有个名为“温度”的变量，它可让研究人员上下调整输出的随机性。在下图中，偏蓝色的图像是“温度”下调后的产物，偏白色的图像则是“温度”上调后的产物。

又或者，你大概更喜欢猫头鹰：

最差的一个例子就是瑜伽动作：

这些画看似人的作品，但它们并没有是由人亲自绘画的。它们是对人类大概会若何画这种器材的一种重造。有的画画得很没有错，有的则画得没那么差，但若是你是在跟AI玩看图说词游戏，那你应该没有难看出它们是什么。

SketchRNN还能够接管以人工绘图为形式的输入。你传送某种绘图，然后它就会尝试去明白它。若是你给一个接管过猫数据练习的模型输入一弛三眼猫绘图，那会发生什么呢？

看到没？看该模型在右边的各种输出图像（同样用蓝色和白色来表示没有同的“温度”），它剔除了第三只眼睛！为什么呢？因为该模型已经通过进修知道，猫有两只三角形的耳朵，脸部左右两边都有胡须，脸圆圆的，只有两只眼睛。

当然，该模型完全没有知道耳朵实际上是什么器材，没有知道猫的胡须是否会动，甚至没有知道脸是什么，也没有知道我们的眼睛能够将图像传输到我们的大脑。它对于这些绘图指代的是什么一无所知。

但它确实知道人类是若何表示猫、猪、瑜伽动作或者帆船的。

“当我们最先生成帆船的绘图时，该模型会基于所输入的那弛绘图得出数百弛显示别的帆船模型的绘图。”谷歌的艾克表示，“我们都能看出它们画的是什么，因为该模型是行使全部的练习数据得出理想的帆船图像。它并没有是画出特定的帆船，而是画出帆船的特性。”

成为人工智能运动的一份子是一件令人兴奋的事情，它是有史以来最令人兴奋的手艺项目之一，至长对那些参与其中的人来说是云云，对于很多其他的人来说也是云云——它甚至能够击倒道格·艾克。

我是指练习神经收集画雨天。输入一副蓬松的云绘图，然后就会出现下面的情况：

雨从你给该模型传送的云下下来。那是因为很多人画雨天的时辰都是先画出一朵云来，然后再在下面画雨。若是该神经收集看到云，那它就会在那个云的外形下面画出雨来。（有意思的是，那些数据是关于一连串的笔画，因此若是你先画的是雨，那该模型就没有会先画云朵。）

这可以说是一项令人欣喜的工作，但在对人类若何思索实施逆向工程的漫少项目中，这算是一项巧妙的附带项目，照样很重要的一块拼图？

艾克认为绘图最吸引人的地方在于，它们用云云长的信息来包含云云多的意义。“你画一弛笑脸，只需几个笔画就能画出来。”他说道。笔画看起来跟人脸以像素为基础的照片完全没有一样。但3岁的小孩也能够分辨出人脸，也能分辨它开心与否。艾克认为这是一种信息压缩，对于这种编码，SketchRNN会解码，任何随心所欲地举行重新编码。

SketchRNN 覆盖局限有限

OpenAI研究者安德烈·卡帕锡（Andrej Karpathy）今朝在AI研究成果传达上表演偏重要角色，他说，“我非常支持SketchRNN项目，它真的很酷。”但他也指出，他们就笔画的重要性给他们的模型引入了很强的假设，这意味着他们对于整个人工智能开发奇迹的贡献相对没那么大。

“我们开发的生成模型每每都会尝试尽大概周全地注意数据集的粗节，没有管你给它们注入什么数据，没有管是图像、音频、文本照样其它器材，它们都实用。”他说，“除了图像以外，这些数据不一样是由笔画组成的。”

他弥补道，“对于人们作出很强的假设，将它们编码到模型中，在各自的特定领域取得更令人印象深刻的成果，我完全能够接管。”

艾克和大卫·哈正在挨造的器材更靠近于玩国际象棋的AI，而没有是能够判定出随便游戏的规则，也能够玩这些游戏的AI。对于卡帕锡来说，两人当前项目覆盖的局限好像比较有限。

明白人类的思索方式

没有过，他们以为线条画对于明白人类的思索方式至关重要，并没有是不缘故原由的。除了这两位谷歌人员之外，也有其它研究者被笔画的力量所吸引。2012年，乔治亚理工大学的詹姆斯·海斯（James Hays）联手柏林工业大学的马赛厄斯·艾兹（Mathias Eitz）和马克·亚历克莎（Marc Alexa）挨造了一个笔画数据集，以及一个识别笔画的机器进修体系。

对于他们而言，绘图是一种“通用的沟通”形式，是某种全部有标准认知功能的人都能够做和做过的事情。“自史前期间以来，人们都用绘图式的岩石画或者洞穴画来描绘视觉世界。”他们写道，“这种象形笔墨比说话要迟几千年出现，如今大家都会绘画和识别绘图中的物体。”

他们提到了多伦多大学神经体系科学家德克·沃尔特（Dirk Walther）在《美国国家科学院院刊》上揭晓的论文，该论文说“简单抽象的绘图激活我们的大脑的方式与真实的刺激物相似。”沃尔特和该论文的合著者假定，线条画“可捕捉我们自然世界的本质，”只管逐个像素来看，猫的线条画看上去一点都没有像猫的照片。

若是说我们大脑中的神经元是在神经收集模拟的分层结构内运作，那绘图大概是掌握存储我们对于物体的简化概念（沃尔特所说的“本质”）的层级的一种方式。也就是说：它们大概能够让我们真正明白我们的祖先很久从前进化成当代形态的时辰人类最先采用的那种新思索方式。绘图，没有管是在洞穴的墙壁上照样在纸巾的背面上，或许描绘了从识别马到识别马的特性的进化，从画出一样平常经历到画出抽象的象征性思维的进化，这也是人类进化成当代形态的过程。

人类的当代生存大多数都源自那一变化：说话，款项，数学计算，末了是电脑运算本身。因此，若是绘图最终在意义重大的人工智能的挨造上表演重要的角色，那就最差没有过了。

然而，对于人类来说，绘图是对真实物品的一种描绘。我们能够容易明白抽象的四线表示法和物品本身之间的关系。该概念对于我们来说有某种意义。对于SketchRNN来说，绘图就是一连串的笔画，是经过肯定的时间形成的一个外形。机器的义务是抓住我们的绘图所描述的器材的本质，尝试行使它们来明白这个世界。

SketchRNN团队正在探索多个没有同的方向。他们大概会开发一个尝试通过人类反馈提升绘画本领的体系。他们大概会在一种以上的绘图上练习模型。也许他们将会找到举措去判定他们受过绘图中的猪特性识别练习的模型能否推广到识别照片级图像中猪的特性。我个人很进展看到他们的模型能够接入别的在传统的猫图上练习过的模式。

SketchRNN 只是“第一步”

但他们自己也坦言，SketchRNN只是“第一步”，要进修的还有很多。这些解码绘图的机器要参与的人类艺术历史相称久长。

在给《纽约客》（The New Yorker）撰写有关欧洲洞穴壁画的文章时，朱迪思·瑟曼（Judith Thurman）写道，旧石器期间的艺术在“少达2.5万年的时间里几乎不转变，几乎不任何的创新或者抵制举动。”她指出，那是“有记录的历史的四倍少”。

计算机，尤其是新的人工智能手艺，正在摇动少久以来人类对于自己擅少做的事情的观念。人类在1990年代在西洋跳棋比赛中输给机器，之后下国际象棋也输给机器，比年则是在围棋比赛中输给AlphaGo。

但AI比年之以是取得显著的进步，并没有是因为艺术发展的速率（只管它确实发展得很快）。对于艾克来说，它更多地是因为他们奋力去研究人类思索方式的基本原理，以及我们毕竟是谁。“艺术真正核心的部分是基本的人文素养，是我们寻常相互沟通的方式。”艾克说。

纵观整个深度进修运动，各式各样的人都是在研究人类生存的基本机制——我们若何看器材，我们若何移动，我们若何语言，我们若何识别人脸，我们若何用言语编故事，我们若何奏乐——这看起来有点像人类特性的表面，而没有是随便特定的人的表面。

现在，它分辨率低，是真实想法的漫画，是真实想法的人物线条画，但我们应该没有难想到要从该绘图网络信息。