谷歌DeepMind团队新AI研究：阿法元无师自通，百战百胜阿法狗

亿欧网 • 6年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

Nature今天上线的这篇重磅论文，详细介绍了谷歌DeepMind团队最新的研究成果。人工智能的一项重要目标，是在没有任何先验知识的前提下，通过完全的自学，在极具挑战的领域，达到超人的境地。去年，阿法狗（ AlphaGo ）代表人工智能在围棋领域首次战胜了人类的世界冠军，但其棋艺的精进，是建立在计算机通过海量的历史棋谱学习参悟人类棋艺的基础之上，进而自我训练，实现超越。

可是今天，我们发现，人类其实把阿法狗教坏了！新一代的阿法元（ AlphaGo Zero )），完全从零开始，不需要任何历史棋谱的指引，更不需要参考人类任何的先验知识，完全靠自己一个人强化学习（reinforcement learning）和参悟,棋艺增长远超阿法狗，百战百胜，击溃阿法狗100-0。

达到这样一个水准，阿法元只需要在4个TPU上，花三天时间，自己左右互搏490万棋局。而它的哥哥阿法狗，需要在48个TPU上，花几个月的时间，学习三千万棋局，才打败人类。

这篇论文的第一和通讯作者是DeepMind的David Silver博士，阿法狗项目负责人。 他介绍说阿法元远比阿法狗强大，因为它不再被人类认知所局限，而能够发现新知识，发展新策略。

为更深入了解阿法元的技术细节 ，知社采访了美国杜克大学人工智能专家陈怡然教授。他向知社介绍说：

DeepMind最新推出的AlphaGo Zero降低了训练复杂度，摆脱了对人类标注样本(人类历史棋局)的依赖，让深度学习用于复杂决策更加方便可行。我个人觉得最有趣的是证明了人类经验由于样本空间大小的限制，往往都收敛于局部最优而不自知（或无法发现），而机器学习可以突破这个限制。之前大家隐隐约约觉得应该如此，而现在是铁的量化事实摆在面前！

阿法元是如何实现无师自通的呢？ 杜克大学博士研究生吴春鹏向知社介绍了技术细节：

之前战胜李世石的AlphaGo基本采用了传统增强学习技术再加上深度神经网络DNN完成搭建，而AlphaGo Zero吸取了最新成果做出了重大改进。

首先，在AlphaGo Zero出现之前，基于深度学习的增强学习方法按照使用的网络模型数量可以分为两类：一类使用一个DNN"端到端"地完成全部决策过程（比如DQN），这类方法比较轻便，对于离散动作决策更适用；另一类使用多个DNN分别学习policy和value等（比如之前战胜李世石的AlphaGoGo），这类方法比较复杂，对于各种决策更通用。此次的AlphaGo Zero综合了二者长处，采用类似DQN的一个DNN网络实现决策过程，并利用这个DNN得到两种输出policy和value，然后利用一个蒙特卡罗搜索树完成当前步骤选择。

其次，AlphaGo Zero没有再利用人类历史棋局，训练过程从完全随机开始。 随着近几年深度学习研究和应用的深入，DNN的一个缺点日益明显:训练过程需要消耗大量人类标注样本，而这对于小样本应用领域(比如医疗图像处理)是不可能办到的。所以Few-shot learning和Transfer learning等减少样本和人类标注的方法得到普遍重视。AlphaGo Zero是在双方博弈训练过程中尝试解决对人类标注样本的依赖，这是以往没有的。

第三，AlphaGo Zero在DNN网络结构上吸收了最新进展，采用了ResNet网络中的Residual结构作为基础模块。 近几年流行的ResNet加大了网络深度，而GoogLeNet加大了网络宽度。之前大量论文表明，ResNet使用的Residual结构比GoogLeNet使用的Inception结构在达到相同预测精度条件下的运行速度更快。AlphaGo Zero采用了Residual应该有速度方面的考虑。

这个工作意义何在呢？ 人工智能专家、美国北卡罗莱纳大学夏洛特分校洪韬教授也对知社发表了看法：

我非常仔细从头到尾读了这篇论文。首先要肯定工作本身的价值。从用棋谱(supervised learning)到扔棋谱，是重大贡献(contribution)！干掉了当前最牛的棋手（变身前的阿法狗），是advancing state-of-the-art。神经网络的设计和训练方法都有改进，是创新（novelty）。从应用角度，以后可能不再需要耗费人工去为AI的产品做大量的前期准备工作，这是其意义(significance)所在！

但洪教授对人工智能做了并不十分乐观的展望 ：最终这个火能烧多久，还得看神经网络能解决多少实际问题。对于眼前流行的东西，不要盲目追逐，要先审时度势，看看自己擅长啥、有啥积累，看准了坑再跳。