文章列表

AlphaGo核心技术之一,蒙特卡洛树搜索

首先, AlphaGo和李世石之间的对决是不公平的,AlphaGo的逻辑模块只能用于下围棋,相当于李世石用他的人类大脑挑战一个专门训练成只能用于下围棋的大脑。去年10月在英国挑战樊麾的时候AlphaGo的核心数是1200个CPU和170个GPU,而挑战李世石的时候AlphaGo用了1920个CPU。围棋界有个Elo的参数用来评价围棋手,李世石Elo为3532,去年10月的AlphaGo的Elo值为3168,值得注意的是中国棋手柯洁的Elo为3634。

AlphaGo总体来讲用了Google DeepMind的Policy Network 和 Value Network指引Monte Carlo算法,相当于用深度学习的技术来引导一个高明的搜索。(其实还有一个Fast Rollout用来快速走子,感谢@dlfall的提醒,总体来说是四个部分:决策网络、价值网络、快速走子和蒙特卡洛树搜索)

  • 4