1 Star 0 Fork 0

endless / alphaZero

加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
该仓库未声明开源许可证文件(LICENSE),使用请关注具体项目描述及其代码上游依赖。
克隆/下载
贡献代码
同步代码
取消
提示: 由于 Git 不支持空文件夾,创建文件夹后会生成空的 .keep 文件
Loading...
README

AlphaZero-Gomoku

这个是一个copy别人的项目,我做了一下简单的翻译,我的关注点是在TensorFlow下alphaZero,所去除其他的介绍 项目使用eclipse+PyDev+TensorFlow

这个项目是根据AlphaZero的算法完成的一个五子棋游戏,通过对弈训练,不断增强自己。通过在pc端的几个小时的训练就 可以实现比较好的对弈效果。通过她,我们可以把主要的精力放在AI模型算法上面

相关知识:

  1. AlphaZero: Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm
  2. AlphaGo Zero: Mastering the game of Go without human knowledge

需要的语言版本支持

  • Python >= 2.7

  • Numpy >= 1.11

  • TensorFlow

PS: 如果想要使用其他的框架训练,需要自己重新policy_value_net.py

Getting Started

如果想和训练后的模型进行对弈,运行

python human_play.py  

重新训练模型运行

python train.py

要注意修改文件头的引用

from policy_value_net import PolicyValueNet  # Theano and Lasagne

训练时使用CPU还是GPU : python train.py (To use GPU in PyTorch, set use_gpu=True)

关于模型训练的建议:

  1. 最好是6*6同时4连为赢,对弈500~1000次大概训练2个小时左右就会获得一个很好的模型
  2. 如果是8*8同时4连为赢,需要2000~3000次训练,只用台简单的pc机的花大概需要花费两天左右的时间 代码的介绍: 先了解蒙特卡洛算法在看源码 mcts_alphaZero.py是蒙特卡洛树搜索(MCTS)算法 policy_value_net_tensorflow.py是模拟的神经网络算法 game.py是增强学习的时候需要获取的游戏的一些相关的数据和参数

空文件

简介

取消

发行版

暂无发行版

贡献者

全部

近期动态

加载更多
不能加载更多了
1
https://gitee.com/endlesshh/alphaZero.git
git@gitee.com:endlesshh/alphaZero.git
endlesshh
alphaZero
alphaZero
master

搜索帮助