代码拉取完成,页面将自动刷新
《Temporal Difference Learning of N-Tuple Networks for the Game 2048》是第一个使用Reinforcement Learning方法解决《2048》游戏的,本项目为对该论文python版本的实现。由于《2048》游戏的独特性因而这里使用比较少见的N-tuple网络,并且在游戏交互过程中不使用探索机制。
environ文件夹下面为《2048》游戏的运行环境,其中,env_5bits_2048.py为单游戏环境版本,env_vec.py为多个游戏组成的向量环境(等同于强化学习中的多环境实体的加速训练法)。 tuple_17_4文件夹下面为N-Tuple网络的实现,这里使用的是numpy的array类型实现的。 q_learning.py为算法文件,实现了原论文《Temporal Difference Learning of N-Tuple Networks for the Game 2048》中的Q-learning方法。
准确的说这个项目是可以正常运行的,但是这个项目运行一段时间后(往往就是二十几分钟)就会出现N-Tuple网络的权重溢出的错误,于是将每次训练的误差值设置在[-10,10]区间内,运行一段时间后发现运行结果极为不好,准确的说这个项目所实现的算法其性能还不如随机选择的好。花费了大量时间后也没有找到合适的解决方法,于是决定将该项目废弃掉。
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。