当李世石对于洼北京速记的搜索没有28层
日期:2016-09-01 / 人气: / 来源:网络整理
ZD至顶网网络频道 05月20日 北京报道(文/李超):5月18-20日,由中国电子学会主办,ZD至顶网协办的第八届中国云盘算大会在北京国家会议中心隆重举办。在20日上午的主会场中,北京邮电大学盘算机与围棋研究所所长、教授刘知青分享了主题为“AlphaGo与柯洁人机大战展望”的精彩演讲。
北京邮电大学盘算机与围棋研究所所长、教授 刘知青
刘知青在演讲中详细讲述了AlphaGo与李世石人机大战的前因成果,并进一步展望了AlphaGo与柯洁的人机大战场景。他讲到:“作为圈内的知情者来看,阿尔法狗的技巧进展完整是基于早期的研究成果,当然其中也有新的技巧突破。因为我们也做了十年的盘算机围棋研究,所以在阿尔法狗和李世石比赛之前,他们也邀请我去做了直播的技巧讲解。在去之前我就做了一个预测,我在微博上发表了三条观点,因为当时很多人盼望我做一下对照赛的预测,我就说了三点:第一李世石不可能全胜;第二机器胜算更大一点;第三李世石甚至会感到非常意外。”
以下是刘知青的演讲实录:(以下内容根据现场速记收拾,未经发言嘉宾确认,仅供参考,拒绝转载。)刘知青:大家上午好,感谢中国电子学会邀请我来报告阿尔法与柯洁的展望。阿尔法狗和李世石的大战引起了全面的关注,是不是有柯洁的大战我们还是可以讨论。首先我想报告一下阿尔法狗成长过程,这成长过程懂得有助于我们懂得阿尔法狗技巧的背景。我们再仔细的解读一下阿尔法狗核心技巧。盼望大家对这技巧有一个更正确的和全面的领会。
最后我们展望一下阿尔法狗和柯洁的人机大战。
首先我们看一下阿尔法狗的一些要害成长结点。阿尔法狗团队呢,他们组织了这围棋团队,大概在两年前,应当在3月份,就是到现在为止大概有两个月的时间。但是比赛的时候正好是两年前,在2014年3月组织这团队,这团队的组织目标就是要验证是否可以通过神经网络的技巧来懂得围棋这个复杂的事物。团队组织了以后,到了2015年的8月份时候,阿尔法狗其实已经全面的超出了当时所有的盘算机围棋的程序。我们知道这个事情是有一些内幕消息的。因为在2015年的11月份,我们当时组织了世界领域内的一个盘算机围棋比赛,我们邀请了全部著名的这些系统到北京来,进行盘算机围棋大战,其中一名最积极参与者,叫做(英文),他是法国的教授,他第一个我还赞助你邀请更多的人来,但是到了8月份给我写一封信刘教授我10月份不能来,原因看起来非常简略,因为他在8月份的时候知道了(英文)这成果,他们也就没有必要到北京来再做这比赛了。
到了10月份的时候,通过杂志上面看到,他们克服了樊辉,中国的职业二段,会议速记,也是欧洲的职业冠军,虽然他已经脱离了中日韩主流的围棋比赛领域。但是他毕竟是经过职业训练的。克服他也是前所未有的一个事情。
到了今年的1月份,阿尔法狗的进展又有了新的进步,它到了版本18。跟樊辉5:0克服了。但是到了今年1月份版本18,因为软件是进步,这个事情不是颁布出来,是我们有一些内幕消息,通过阿尔法狗的团队和我们的一些接触,得到的东西。
另一方面可以看,阿尔法狗版本18的强度,它可以让阿尔法狗版本13,也就是克服樊辉的版本。世界上面没有一个职业选手,应当有这样的能力,可以让樊辉三个子、四个子,所以这也是(英文团队有信心直接寻衅李世石。所以他们有打算邀请其他的职业选手,通过中国围棋协会,通过一些私人的关系,邀请中国的职业棋手,本来打算今年春季的时候去伦敦,去硅谷进一步测试,但是一月份版本18出来已经没有什么意义,因为版本18有一个登积分的评价。而职业选手像李世石在3500分,柯洁世界围棋第一人也只在3600分上面,从等积分来看是毫无例外的阿尔法狗会碾压李世石,所以他们1月份取消了原打算对于中国棋手的邀请,而直接发布了去寻衅李世石,当然我们3月份看到了阿尔法狗版本18,完胜李世石。当然存在了4:1,这一盘裸露了阿尔法狗技巧的弱点,但并不影响他们全部的情况。
作为圈内的知情者来看,因为我们也做了十年的盘算机围棋研究。阿尔法狗这些技巧的进展,完整是基于早期的研究成果。当然他们也有新的技巧突破,在阿尔法狗和李世石比赛之前,他们邀请我去乐视去做直播,做技巧讲解。去之前我就做了一个预测,我在微博上发表了这么三条意见。因为很多人盼望我表达一下对于比赛的预测,我就说了三。第一李世石不可能全胜,第二机器成功更大一点,第三我说李世石甚至会感到非常意外的。
当然我没有直接说,李世石会被机器全面的碾压,我还是留了一点余地,因为毕竟比赛还没有开端,事实上我们看到这些东西都完整得到了验证。我们再看一看,为什么阿尔法狗选择了做围棋,谷歌做围棋。因为围棋是我们现在所知的,人类历史上面发展过来,而不是现在临时设计,它是一个最复杂的游戏,复杂在什么方面呢?叫做天文数字的状态空间复杂度和决策复杂度。同时围棋又涉及多方面的人类智能,包含逻辑思维,会议速记,你要断定A好还是B好,同时还有形象思维,围棋里面有很多很的图形,其实职业选手之所以很壮大,他们是积累了十年甚至更长时间的比赛经验,其实是对形状的一个感知,同时还有优化选择,它是一个综合能力的一个游戏。相比之下呢,国际象棋相对来说比较简略,他们更大程度上面是依附逻辑断定来做的。所以围棋是公认一个重要的难点。在国际学术界上面,公认认为是人工智能我们领域里面长期的寻衅。从1997年克服卡斯洛夫之后,学术界一致认为这是要做的,他们的观点比较消极,可能需要15年、20年。去年我们在北京举办比赛的时候也做了一个讨论,广泛认为需要20年左右的时间。但是阿尔法狗第二年就把它解决了。为企业是衡量人工智能程度一个重要的标尺。
围棋的突破表现人工智能以完整可以胜任人类诸多的智力的问题,它设计了逻辑思维、形象思维、优化选择的等多种综合能力的表现。我们看到这个突破之后,当然也经过了技巧分析,我们认为现在人工智能是处在一个爆发的转折点。
这个阿尔法狗人工智能,和前期的人工智能不太一样。它是一种数据驱动的人工智能,我们还会看到里面应用了大批的数据,经过了大批的盘算,训练出了神经网络,这些神经网络是可以供给一些早期,我们无法能够供给的一些能力。
我们看一看阿尔法狗背后的一些核心人工智能方法。它的重要方法就是要解决天文数字的复杂度。这些东西人类是如何解决,我也是参考了职业选手的意见,通过他们的表述和想法来看呢,通常是需要两个事情,一个就是对旗杆的直觉,也就是说它很可能知道这个棋在哪里应当落子,应当这个盘面在当前的情况下面是好还是坏了。这些直觉是职业选手,从五六岁开端学习,到20岁左右得到世界冠军这么长期积累的成果。可能需要像几万盘棋。
当然除了这些直觉之外,还有逻辑断定、逻辑思维,我在下这一步,我再下一步你之后这些相互交换以后他们的变更。职业选手来看有两种技巧,一个是对于围棋的直觉,一个是进行搜索和验证。阿尔法狗所应用的人工智能技巧,完整是按照人类的这种方法来进行的。早期的人工智能对于直觉是非常非常弱的。它很强,壮大在第二点上面,它可以进行搜索,它还进行验证,但是当它少了这些直觉之后,它的搜索空间就宏大的膨胀,以至于现有的盘算机资源是无法胜任这些问题的。
所以阿尔法狗的这东西重要就是通过深度神经网络机器学习,获得了围棋的棋杆,这是分成了两部分,一个是落子棋杆,给定任何一个盘面,你得告诉我哪些是真正可能落子点,没有这棋杆的话,你只能按照围棋的规矩来落子,它有三百多个落子点,你是不可能有机会、有时间一一进行确认的。实际过程中,一个围棋选手他经过长期的训练之后,他就有了很强的落子棋杆,北京速记,他就知道当前在哪个落子的。比如说这个图片上面,我们看到了右边现在是黑落子,它有一系列的落子点,比如说我们看到里面有多个,这些落子点,我们从职业围棋选手或者高端的围棋选手看来,都是完整合乎我们人类落子习惯。这些东西是怎么得来的呢?这些是阿尔法狗通过学习了30万盘职业和业余高段棋手棋谱获得了。可能是600万个盘面,这种有监督的机器学习,通过训练13层的深度神经网络,加上必定的围棋的一些知识,这些围棋知识是非常非常少,包含你有多少气一些非常简略的围棋规矩。合起来顺便出了这网络,叫做策略网络。就是说你在一个盘面下面我有甚么样的落子策略,它就供给了一个落子棋杆。落子棋杆还不是谷歌做的第一开发。第二个棋杆是叫做输赢棋杆,这可能是更重要的一个,对于围棋的感知。输赢棋杆说的什么呢?就是说扔给任何一个围棋盘面是黑好还是白好。围棋在阿尔法狗之前,盘算机围棋对这概念一无所知,它是通过一个方法来去算的,算需要费用大批的时间。待会我会讲到如何去算,但是阿尔法狗训练了一个价值网络,这个网络是如何构建的呢?它有3千万盘的对局,这个对局是自我对局,也就是阿尔法狗左手跟右手自己来比,下了3千万盘,下了3千万盘这一盘棋也需要近一个月的时间。用大型的GPU用了一个月的时间。下了3千万盘棋以后,它把这3千万盘棋每盘里面取出一个盘面,通过这些一个盘面以及输赢成果,做了加强型的机器学习,来获得输赢棋杆。
阿尔法狗的这些学习训练过程,比如说包含30万盘的落子和3千万盘的输赢,这训练的数量级,远超出人类棋手的能力。也就是说完整依附于棋杆是不够的,所以它需要一系列的技巧进行棋杆的验证,当然这是基于数学基础和数学模型。
第一个验证就是输赢棋杆的验证,虽然它的给了一个棋杆,但是这棋敢还只是直觉还不是一个确认的东西,它有一种方法,就是基于期望的一个数学评估模型。它在当前盘面上面进行蒙特别卡洛随机采样,采样过程当它足够必定量的时候,可以进行期望的评估。这期望就可以作为它输赢的评判标准。给了棋杆通过采样再验证。
这个蒙特卡洛树搜索是过去十年围棋当中一直应用的主流技巧,它是基于最优选择的搜索,也就是说在那个可能落子点的处所,进行更大规模的搜索,而在那些机会不是很大的处所,作为相对照较小的检查。它会把大批的盘算资源和验证的时间,花在他可能的落子点,这可能落子点是基于输赢,完整是以胜率来指引。
但是传统的技巧,由于早期没有棋杆的指引,它的展开数量比较大,而且对于捡子的方法比较弱,所以无法有效真正高程度的落子。搜索成果就是这样子,搜索成果他们会得到一个双方最佳的落子次序。我们看到他们从文章上面颁布出来,最佳落子次序是28步,也就是说它会根据可能的落子选点,展开这棵树最后搜索到28层,这28层并不是全面统一全都是28层,而是在最深的处所有28层。在那些相对来说下的机会很小的处所,比如说第四盘,当李世石对于洼的搜索没有28层。所以他花资源比较少。对于最佳序列28层搜索,这应当是超出了职业选手在一般情况下的搜索领域了。当然如果是一个特定问题,比如说真子(音)某一个特定环节上有更深层次的思考,但是一般情况下28子是超出了人类能力。
什么是阿尔法狗核心突破呢?这个图上面讲了,是他们的(英文)首席履行官他发了一篇像微博一样的东西,但是他是在Facebook上面写的,他说我们的成功不是重要依附于硬件,而是由于它的神经网络,特别是价值网络的实现。所以它的核心技巧是应用深度神经网络获得了围棋的棋杆,尤其是输赢的棋杆。据说他们这输赢的棋杆还在不断的改良和加强中。
我们可以最后展望一下阿尔法狗和柯洁的人机大战。这个事情是不是成为一个现实,我现在也很难讲,但是我可以从技巧上面来看一看他们比赛的一个展望。第一是否会有阿尔法狗和柯洁的人机大战,其实从某种意义来讲做一比赛还很合适,因为现在的比赛成果,阿尔法狗是4:1克服过李世石,柯洁是8:2是李世石,从李世石输赢来看他们非常匹配,但是从等积分上有一些差距,但是刚才等积分还是一个另外方法,登积分还不是职业联赛打出来,还是跟自己不同的版本让子棋获得,所以可能存在了必定水分。
第二就是说如果这阿尔法狗和柯洁比赛真正实现了,他们比赛的成果将是什么。以及应当以什么样的方法来真正组织这一场比赛,对于李世石比赛,其实李世石非常匆促的应战,他可能5分钟之内答应,现在柯洁来跟阿尔法狗我信任不会只有5分钟的筹备时间。原因也 简略,大家都认识到阿尔法狗的壮大,同时我们还可以这么讲,阿尔法狗的壮大当时还是1月份的版本18,现在是5月份,我也不知道他们版本19还是21。现在的版本跟版本18将是一个样的差别我们现在很难讲,但是我可以说版本是在进步的过程中,而且他们的技巧是非常非常壮大的。
好,我就说这么多,感谢中国人工智能协会还有中国围棋协会,等等一系列对我们的工作供给包含,包含电子学会邀请我来做这事情,也感谢国家围棋队的领导,感谢广州棋院在我们做盘算机研究过程大力支撑,好,谢谢大家。
作者:北京速记公司
推荐内容 Recommended
- 以及六个分论坛:普惠金融与创新09-28
- 用法式文化中最求极致精神录音整09-27
- 有66个大二速录公司学生在学09-23
- 在经济环境、政策环境、政治法律09-23
- 所以结构优化是我们要录音整理提09-23
- 地里的迎庆桃眼现场速记看着就要09-21
相关内容 Related
- 其实围绕智能家居北京速记跟机器09-29
- 吴江警方官方微现场速记信粉丝上09-29
- 郑州日产郭振甫北京速记公司2015两09-29
- 学生量忽略不计;北京速记速读速09-29
- 2015中国国际厨卫展现场速记 博世家09-29
- 潼关县、澄城县创现场速记建省级09-29