德扑AI来华掀起人机大战?化名冷扑挑战大师

威腾网  •  扫码分享
我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  

德扑AI来华掀起人机大战?化名冷扑挑战大师

3月24日下午消息,,卡耐基梅隆大学(Carnegie Mellon University,以下简称CMU)开发的德扑 人工智能 程序Libratus,将在4月来到中国,与中国德扑玩家进行德扑界的“人机大战”。

据悉,这款CMU开发的名为Libratus的德扑程序,将以“冷扑大师”的译名挑战中国德扑高手,而这场挑战赛的发起者,正是CMU校友、创新工场创始人李开复

Libratus曾碾压人类高手赢176万美元筹码

实际上,Libratus并非初出茅庐的毛头“程序”。在今年春节期间,Libratus就已经在宾夕法尼亚州匹兹堡的Rivers赌场,将4位人类职业玩家挑落马下,并且夺走了共计176万美元筹码的奖金。

当时,美国东部时间1月30日,CMU开发的Libratus与四名人类职业玩家Jason Les、Dong Kim、Daniel McAulay 和 Jimmy Chou约战宾夕法尼亚州匹兹堡的Rivers赌场,并在持续20天的比赛时间中,对玩12万手,最后Libratus赢走了总数200万美元筹码奖金中的176万美元筹码。

值得注意的是,与Libratus对战的都是德扑职业玩家中的高手。比如其中的Dong Kim,还在2年前在同一个赌场击败了这个人工智能的前身,但在这场为期二十天的比赛刚刚过半之时,Kim就直言:人类已经没有真正获胜的机会。

Libratus的这场人机大战中的胜利,也迅速引发关注。即便在AlphaGo之后,AI击败人类已经不再是什么新闻,但人工智能在德州扑克上击败人类,这其中的难度和信息量不可小觑。

AI玩德扑为何难?

利用人工智能程序玩德扑,最大的难度在于“不完整信息博弈”。因为玩德州扑克需要推理能力,而这对于机器来说很难模仿。虽然人工智能在跳棋、象棋乃至围棋比赛中,已经完胜人类对手,但无限注德州扑克是一个完全不同的情况。

此前据AI新媒体《量子位》报道,由于一些卡牌并没有发出来,在德州扑克的对局里,任意时间,任何一个玩家,都只能观察到一部分的情况。要赢,他们需要直觉:一种猜测其他玩家手上是什么牌的能力。而且还要考虑到对手每一种可能的打法,想得到理想的战略非常困难。而现实世界中,不完美信息才是常态,各种看不见的隐藏信息产生了大量的不确定性,而德州扑克代表的就是这种类型的博弈。在围棋界纵横无敌的AlphaGo,本质上处理的还是完美信息博弈,而AlphaGo无法处理德州扑克的问题,更遑论使出诈唬。

为了解决“不完整信息博弈”这种计算机难题,CMU的人工智能研究者们专注于信息集,通过同时思考未知和已知变量各种可能状态的方式来进行预测,这需要强大的计算能力。

在计算能力方面,CMU主要依赖于Bridges Super Computer超级计算机。每个牌局结束后的夜晚,匹兹堡市超级计算中心Bridges电脑执行计算,用以优化Libratus的策略。而在白天的比赛过程中,Bridges用于计算每一手的终结游戏策略,Bridges提供三种类型的计算选项,称为节点:常规、大型和超大型。Bridges不是当今世界最大、最快、最强劲的超级计算机,但它可能是面向公众开放的,最大、最快、最强劲的超级计算机,在Bridges的帮助下,原本在个人电脑上耗时数月的计算,仅仅几个小时就搞定。

此外,在计算能力保障的基础上,CMU在具体技术应用方面,用到了区别于AlphaGo的方法。CMU方面曾披露称,Libratus没有用到专业的牌局进行神经网络的训练,不同于AlphaGo用了大量的棋局做训练,这个模型用的是随机生成的牌局(随机产生公共牌、底池筹码、玩家拿牌概率)和尝试性的动作带来的结果(在随机生成的输入情况下模拟玩家跟牌后的结果)作为训练数据。

Libratus还利用了博弈论,与AlphaGo不同,Libratus系统不通过分析大量可能的下一步完成任务,这个CMU构建的新系统通过平衡风险与收益来决定自己的下一步,在纳什均衡定义中的完美游戏状态。

最后,在具体操作上,Libratus分三步走。第一阶段,Libratus通过名为反事实遗憾最小化(counterfactual regret minimization)的算法,在经过训练之后独立于人的玩法形成自己的策略。第二阶段,第二个系统属于一种“残局解算器”。它可以分析游戏状态并聚焦于第一套系统的注意力,使人工智能在比赛过程中也能进行学习。第三阶段,Libratus会借助Brown,运用一个算法来识别出那些被玩家利用的机器玩法,然后从策略中剔除掉。

赢了人类又怎样?

当然,人工智能程序Libratus在德扑赢了人类,还不止于会改变德州扑克发展历程这么简单。跟AlphaGo一样,它很容易应用到其他领域,并且更加有效且快速地解决人类难题。

因为玩德州扑克需要推理能力和心理战术,而这对于机器来说很难模仿。在围棋界纵横无敌的DeepMind AlphaGo本质上处理的还是完美信息博弈,无法处理德州扑克的不完美信息问题,更遑论使出诈唬(Bluffing)。

而Libratus的例子说明,AI在面临不完全或误导信息时,已经有进行推论的能力。现实世界中,不完美信息才是常态,各种看不见的隐藏信息产生了大量的不确定性,而德州扑克代表的就是这种类型的博弈。

所以在未来,Libratus这样的AI,可以用于商业谈判、网络安全、医疗方案制定等领域。

而人工智能发展的终 极 目标,很可能会产生一个通用人工智能(AGI)。通用人工智能可以解决任何一个问题,而不是像Libratus或者AlphaGo这样只能专注于扑克或者围棋。想要实现AGI就得让人工智能学会解决不确定性问题,这也是Libratus让科技界、科学界兴奋不已的最主要原因。

为何还要在中国掀起“人机大战”?

不过,既然Libratus已经在正式比赛中战胜了顶级职业玩家,为何还要专门来到中国掀起“人机大战”?更何况德州扑克跟围棋还不一样,中国并非德扑的华山之巅。

不过新浪科技有可靠渠道和可信资料证明,把CMU的德扑程序Libratus带进中国的,正是CMU的知名校友、现创新工场创始人:李开复。

值得一提的是,李开复还专门为“Libratus”取了中文名——冷扑大师。

至于为何是李开复和创新工场作为主办方?有接近创新工场方面的人士向新浪科技分析称,首先CMU是李开复的母校,也是CMU在中国最为知名的代表;其次创新工场主办此事,可能还与其目前在人工智能领域的布局有关,去年年底,创新工场正式成立了创新工场人工智能工程院,并且希望进一步提升知名度揽获更多的AI人才;值得一提的是,李开复是创投圈内知名的德扑选手,之前先后发起并参与了首届投资界扑克赛和中国创投名人赛,甚至还吸引了娱乐明星汪峰等参加。

此外,还获悉,在此次人机扑克大赛期间,Libratus开发者卡耐基梅隆大学教授也将同步来华进行交流。

有趣的是资料上,表演赛选手名单中包括李开复、沈南鹏、倪正东、吴世春、王小川、许朝军等科技创投人士,也有许家印、朱晔等企业家,还包括王思聪、汪峰、和华少等娱乐圈焦点人物。

然而截至发稿前,创新工场方面并未对此发表回应和说明。

本文被转载1次

首发媒体 威腾网 | 转发媒体

随意打赏

德州扑克人机大战李世石人机大战德州扑克 人机围棋人机大战人机大战围棋百度人机大战人机大战直播人机大战
提交建议
微信扫一扫,分享给好友吧。