孟繁岐的到来给与了DeepMind三位一体的加速服务。
全新的特制网络结构,在增强性能的同时,大量减少了计算量。
海量的计算设备,让初期在算力上有些捉襟见肘的DeepMind瞬间狂放了起来。
“就没打过这么富裕的仗!”
最后一点,也是最重要的一点,那就是技术方向和选择上的指引。
虽然孟繁岐没有精读过阿尔法狗的代码和论文,不过大体上的一些思路和最终版本的关键技巧他还是多少知道一些。
加上DeepMind的核心技术人员原本也都是这方面技术的顶尖高手,即便孟繁岐有些记不太清的地方,一群人也能迅速讨论出一个结果。
二月中下旬的时候,阿尔法狗迎来了质变。
海量高质量对局的棋谱已经开始发挥威力,反复对弈的评估网络大局观飞速来到了职业水平。
在评估网络加入进阿尔法狗之后,整个局面迎来了一次飞跃。
战鹰已经彻底看不懂对面的这個对手了。
“按理来说,它的棋力应该只有四五段的水平,但是给我的感觉非常不一样。”胜率从35左右直接跌到不足百分之3,战鹰已经彻底认命了。
但她总感觉对方的路数怪怪的。
“职业八九段的棋手我也不是没有碰过,他们给我的压迫感远远没有阿尔法狗来得强。”战鹰输八九段的棋手,狂输大几十目,被疯狂屠龙的局也有不少。
“我感觉它在戏耍我你知道吗,很多时候我的判断,前几十手我就大势已去了,可整个中盘仍旧下得是不温不火,最后我差个几目输掉。”
“感觉我被控温了。”
赢一个人很容易,但是能控制在某种程度的赢,还是不那么轻松的。
一个玩不明白,战鹰捉小鸡,搞不好要被小鸡给啄了眼。
这就像期末考试一样,每次稳定比你的同桌高两分,要比考满分还难。
“这也算不上是控温吧,机器并没有那么聪明,主要的问题是,我们在训练的过程当中,缺乏对中间结果的局势量化。”
评估网络可以针对一个棋局,去判断下在不同的位置胜率如何,不过在学习的时候,网络还是以最后的胜负为标准,来判断哪些棋好,哪些棋臭。
至于最后是赢一百目还是赢一目,没有做出什么很大的区分。
毕竟围棋下错一两手,后续直接差个几十目也正常。
所以棋手经常感觉阿尔法狗明明很有机会暴打自己,却总是下得很奇怪,这是因为它觉得已经差不多够赢了。
不过你别说它奇不奇怪,你就说它赢没赢吧。
在阿尔法狗看来,这就是可以下,但是没必要。
这不是已经赢了,已经拿下了吗?
-----------------
一周之前,人在法国的樊麾二段收到了DeepMind的邀请。
当时,樊麾正法国的波尔多下一对多围棋,以一敌五,不落下风。
樊麾长着一张标准的国字脸,人不算高,但相当精壮。
樊麾二段出生在华国,幼时曾经和华国上一批顶尖围棋天才一起参加集训。
从小就觉得自己天赋异禀的他,在集训过程当中遭遇了很大的挫折和打击。