会玩德州扑克的ai, 为什么比alphago更厉害?-凯发k8国际真人娱乐
阅读提示:没有追随深度学习潮流的“冷扑大师”,或许在现实生活中拥有更广阔的用武之地:金融交易、网络安全、商业拍卖、政治谈判……因为这些情景都是充满了各种博弈的“非完美信息”游戏。
记者|金 姬
提到人机大战,普罗大众比较熟悉的是战胜人类围棋的ai“阿尔法狗”(alphago)。但在人工智能(ai)界,业内人士更关注的是另一项人机大战——德州扑克。因为在这个领域,ai系统没有海量的棋谱可以深度学习,比赛双方掌握的信息也不对等,这就需要ai系统利用博弈论等其他理论来进行决策。
2017年1月,美国宾州匹兹堡的大河赌场(rivers casino)举行了一场德州扑克的“人机大战”——连续20个比赛日中,一个名为“冷扑大师”(libratus)的ai在共计12万手的一对一无限注德扑比赛中击败了四名顶尖人类高手,共计领先人类团队176万美元筹码。令人咋舌的是,这是“冷扑大师”第一次和人类交手。
3个月后,“冷扑大师”又在中国海南战胜了6位顶尖华人扑克选手。此次比赛发起人、人工智能工程院院长李开复赛后如此评价道:“如果alphago是超级iq天才,那么‘冷扑大师’就是超级eq天才。”
7月下旬,“冷扑大师”的开发者、美国卡内基梅隆大学(cmu)计算机教授托马斯·桑德霍姆(tuomas sandholm)再次来到中国,在“2017钛媒体-杉数科技ai大师圆桌会”现场与他的学生、清华大学计算经济学研究室主任、博士生导师唐平中,上海财经大学教授、国际奥数金牌、杉数科技科学家何斯迈,上海财经大学交叉科学研究院院长、杉数科技首席科学家葛冬冬讨论了商业实际场景中真正需要的ai,给大家分享了“ai赌神”的获胜秘诀。他表示:没有追随深度学习潮流的“冷扑大师”,或许在现实生活中拥有更广阔的用武之地:金融交易、网络安全、商业拍卖、政治谈判……因为这些情景都是充满了各种博弈的“非完美信息游戏”(imperfect-info games)。
为什么要让ai玩德扑?
“德扑ai之父”桑德霍姆用带有芬兰口音的英语说,之前著名的人机大战,无论是ibm的国际象棋ai“深蓝”、还是谷歌的围棋ai“阿尔法狗”,比赛双方获得的信息都是一样的,这就是“完美信息游戏”。但现实生活中这种信息完全对等的情况很少发生,而更多是“非完美信息游戏”,德州扑克就是这样一例。也就是说,即便在一对一的情况下,比赛双方获得的信息是不一样的、或者说只是部分的——双方都不知道五张公共牌会开出怎样的结果,也不知道对手猜测自己握有怎样的手牌。这样的游戏就不存在单一的最优玩法。
对于ai团队而言,研究“非完美信息游戏”不但更富挑战性,也更有实际运用价值。而“冷扑大师”打开了ai解决随机事件和隐藏信息的大门。
根据《量子位》的报道,“德扑ai”的最早研发可以追溯到2014年8月,当时刚刚完成硕士学业的诺阿姆·布朗(noam brown)继续留在cmu攻读计算机科学的博士学位。当年,他就和导师桑德霍姆教授一起开发出德扑ai:tartanian7以及后续版本baby tartanian8,并且连续赢得电脑扑克大赛(电脑vs电脑)的冠军。
师生俩乘胜追击,开始研究德扑人机大战。两人创造了claudico,当时的桑德霍姆以为claudico有五成胜算。谁知,在2015年4月美国匹兹堡的大河赌场,claudico在两周时间内和四位人类顶级玩家交锋8万手,累计输掉73.2万美元的筹码。之所以选择这个赌场,因为卡内基梅隆大学也在匹兹堡。
2017年1月11日,全新的“冷扑大师”(libratus)卷土重来。还是四位人类对手,不过时长变为20天,累积交锋12万手。这次德扑ai没给人类玩家机会,一路以碾压的态势完胜。
“冷扑大师”的获胜秘籍是什么?
以往ai处理“不完美信息游戏”采用一种缩略的方法,例如将对手下注249美元近似为200美元进行简化处理,采用这一模式的claudico在人类面前不堪一击。而“冷扑大师”就不同了,它会对每一手牌进行单独的处理,根据不同的牌面制订出不同的战略。对它而言,249美元就是249美元,它不会像以往的ai那样尝试聚类,而是马上实时计算,得出胜算最大的策略。
这种算法最大的特点,是开发者可以获得一定程度的“确定性”。而“确定性”正是时下大热的深度学习最缺乏的。有评论指出,深度学习有两大局限性:一方面,深度学习的本质是机器通过分析海量数据习得一些模式,但并不是所有领域都能采集到海量数据。以自动驾驶为例,显然通过积累海量事故经验来习得避免事故发生是不现实的。另一方面,深度学习是一个知其然而不知其所以然的“黑匣子”,这在许多重大安全事件上并不能令人放心。自动驾驶的事故问责问题就是一例。
值得注意的是,“冷扑大师”在今年1月人机大战之前没有研究过人类如何打德州扑克,也没有和人类职业玩家有过交手。在投入实战之前,它和自己对战了几百万手牌,其中有不少是带有特定目的的残局,真正机器和机器之间的交手,大约是几十万手。
更有意思的是,“诈唬”(bluff)这种看似与心理有关的人类技能,“冷扑大师”通过算法也“自学成才”。诈唬是德扑的一种经典策略——当你手中的牌面不够大,可以通过虚张声势加注吓退对手,逼对手弃牌。而计算机会根据选手过去的表现来判断对手牌面大的概率有多少,从而做出当下的最佳策略。
在桑德霍姆看来,“冷扑大师”的这套ai系统有十分广阔应用空间:从战略定价到金融领域、从谈判到网络安全、从政治竞选到拍卖、从医疗资源规划到军事领域……现在唯一的问题是,运行“冷扑大师”,需要匹兹堡超算中心的bridges超级计算机。不过桑德姆斯研究团队乐观表示,算法还可以被优化,再加上计算硬件的提升,可能5年之内就能一部手机搞定一切了。
※凯发k8国际真人娱乐的版权作品,未经新民周刊授权,严禁转载,违者将被追究法律责任。