1. 简单百科
  2. AlphaGo Zero

AlphaGo Zero

AlphaGoZero是谷歌下属公司DeepMind的新版程序。

从空白状态学起,在无任何人类输入的条件下,AlphaGoZero能够迅速自学围棋,并以100:0的战绩击败“前辈”。

发展沿革

2017年10月19日凌晨,在国际学术期刊《自然》(Nature)上发表的一篇研究论文中,谷歌下属公司Deepmind报告新版程序AlphaGoZero:从空白状态学起,在无任何人类输入的条件下,它能够迅速自学围棋,并以100:0的战绩击败“前辈”。DeepMind的论文一发表,TPU的销量就可能要大增了。其100:0战绩有“造”真嫌疑。它经过3天的训练便以100:0的战绩击败了他的哥哥AlphoGoLee,经过40天的训练便击败了它的另一个哥哥AlphoGoMaster

工作原理

抛弃人类经验”和“自我训练”并非AlphaGoZero最大的亮点,其关键在于采用了新的reinforcementlearning(强化学习的算法),并给该算法带了新的发展。

战绩

AlphaGoZero仅拥有4个TPU,零人类经验,其自我训练的时间仅为3天,自我对弈的棋局数量为490万盘。但它以100:0的战绩击败前辈。

参考资料

人类不是最好对手!新AlphaGo放弃人类经验后棋力飞涨_绿政公署_澎湃新闻-The Paper.澎湃新闻.2021-06-14