Collect from 银星围棋

Google,新的围棋机器人不用棋谱训练,号称,3,天打败了,AlphaGo

Google,新的围棋机器人不用棋谱训练,号称,3,天打败了,AlphaGo


  Google 开发的围棋人工智能机器人有了更强的版本,AlphaGo Zero。


  2014 年被 Google 收购的 DeepMind 公司公布了新的围棋人工智能 AlphaGo Zero。在计算性能需求更低、没有大量围棋棋谱作训练的前提下,AlphaGo Zero 号称是自学 3 天就能以 100:0 完胜前一代的 AlphaGo。


  更详细的研究报告被公布在了权威期刊《自然》上。除了功耗更低、算法更强大外,跟前代 AlphaGo 最大的差别是,AlphaGo Zero 不像前者那样使用大量的训练数据——10 万职业棋手的棋谱。


  Deepmind 创始人、CEO 丹米斯·哈撒比斯(Demis Hassabis)称: “最引人注目的是,我们不再需要任何人类的数据了。”


  围棋机器人 AlphaGo 在过去 2 年取得了很大的成果。继去年击败韩国棋手李世乭后,AlphaGo 在今年 5 月份又击败了柯洁。但从其算法层面来说,AlphaGo 仍然倚重大量棋谱数据作为基础,随后再结合下棋模式和自我对战,作进一步的训练。截止去年 3 月份,AlphaGo 就对战了 3000 万个场次。


  跟前代的 AlphaGo 在算法架构上有相似之处,新版的 AlphaGo Zero 也使用一种被称为强化学习的算法,再结合深度神经网络。主程序员大卫·西尔弗(David Silver)带领的一个 15 人左右的团队花了价值数百万美元的计算资源,开发了 AlphaGo Zero。


  但相比之下,AlphaGo Zero 直接是从头学起,没用现成的棋谱学习数据,更依赖于算法。DeepMind 的开发团队将围棋规则输入进去后,让 AlphaGo Zero 自我对战进行学习,陪练机器人的难度也随着比赛不断提升。


  从训练过程来看,AlphaGo Zero 更接近于一个初学者在逐渐增强实力。西尔弗称:“(AlphaGo Zero)它会发现人类的落子模式,并进行尝试,但最终会发现一些它偏好的模式。”


  此外,AlphaGo Zero 所需要的计算性能变小了,但能力变强了。早前的 AlphaGo 需要使用 48 个 Google 开发的人工智能芯片 TPU,新版的 AlphaGo Zero 只需要使用 4 个。但算法的能力变强了,根据 Deepmind 的说法,AlphaGo Zero 经过 40 天的训练,对阵 AlphaGo 的胜率达到 90%。


  对于业界来说,AlphaGo Zero 看上去有助于减少同行业的公司对于大量数据的依赖,但其算法取得的进展有多大,不少人持谨慎意见。对于计算机来说,围棋的规则相对容易理解,变量较少,研究人员也比较容易对棋谱进行模拟。


  另一方面,打败职业选手,围棋机器人所需要的比赛数量远超人类。华盛顿大学的教授、机器学习的研究人员佩德罗·多明戈(Pedro Domingos)称:“假使 AlphaGo 只完成跟李世乭职业生涯差不多的比赛,还能击败他,那才是真正令人印象深刻。”




AlphaGo

热点追踪

View All NEWS and event