# TD-tuple-net-for-2048 **Repository Path**: devilmaycry812839668/td-tuple-net-for-2048 ## Basic Information - **Project Name**: TD-tuple-net-for-2048 - **Description**: 《Temporal Difference Learning of N-Tuple Networks for the Game 2048》是第一个使用Reinforcement Learning方法解决《2048》游戏的,本项目为对该论文python版本的实现。由于《2048》游戏的独特性因而这里使用比较少见的N-tuple网络,并且在游戏交互过程中不使用探索机制。 - **Primary Language**: Python - **License**: MIT - **Default Branch**: master - **Homepage**: https://www.cnblogs.com/devilmaycry812839668/p/16508118.html - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2022-07-26 - **Last Updated**: 2022-08-13 ## Categories & Tags **Categories**: Uncategorized **Tags**: 无法运行的项目 ## README # TD-tuple-net-for-2048 #### 介绍 《Temporal Difference Learning of N-Tuple Networks for the Game 2048》是第一个使用Reinforcement Learning方法解决《2048》游戏的,本项目为对该论文python版本的实现。由于《2048》游戏的独特性因而这里使用比较少见的N-tuple网络,并且在游戏交互过程中不使用探索机制。 #### 项目文件说明 environ文件夹下面为《2048》游戏的运行环境,其中,env_5bits_2048.py为单游戏环境版本,env_vec.py为多个游戏组成的向量环境(等同于强化学习中的多环境实体的加速训练法)。 tuple_17_4文件夹下面为N-Tuple网络的实现,这里使用的是numpy的array类型实现的。 q_learning.py为算法文件,实现了原论文《Temporal Difference Learning of N-Tuple Networks for the Game 2048》中的Q-learning方法。 #### 不能运行的情况说明 准确的说这个项目是可以正常运行的,但是这个项目运行一段时间后(往往就是二十几分钟)就会出现N-Tuple网络的权重溢出的错误,于是将每次训练的误差值设置在[-10,10]区间内,运行一段时间后发现运行结果极为不好,准确的说这个项目所实现的算法其性能还不如随机选择的好。花费了大量时间后也没有找到合适的解决方法,于是决定将该项目废弃掉。