alphaZero: 学习

AlphaZero-Gomoku

这个是一个copy别人的项目,我做了一下简单的翻译，我的关注点是在TensorFlow下alphaZero,所去除其他的介绍项目使用eclipse+PyDev+TensorFlow

这个项目是根据AlphaZero的算法完成的一个五子棋游戏，通过对弈训练，不断增强自己。通过在pc端的几个小时的训练就可以实现比较好的对弈效果。通过她，我们可以把主要的精力放在AI模型算法上面

PS: 如果想要使用其他的框架训练，需要自己重新policy_value_net.py

如果想和训练后的模型进行对弈,运行

python human_play.py

重新训练模型运行

python train.py

要注意修改文件头的引用

from policy_value_net import PolicyValueNet  # Theano and Lasagne

训练时使用CPU还是GPU : python train.py (To use GPU in PyTorch, set use_gpu=True)

关于模型训练的建议:

最好是6*6同时4连为赢，对弈500~1000次大概训练2个小时左右就会获得一个很好的模型
如果是8*8同时4连为赢，需要2000~3000次训练，只用台简单的pc机的花大概需要花费两天左右的时间 代码的介绍: 先了解蒙特卡洛算法在看源码 mcts_alphaZero.py是蒙特卡洛树搜索（MCTS）算法 policy_value_net_tensorflow.py是模拟的神经网络算法 game.py是增强学习的时候需要获取的游戏的一些相关的数据和参数