# TD-tuple-net-for-2048

**Repository Path**: AngryPanda_XYZ/td-tuple-net-for-2048

## Basic Information

- **Project Name**: TD-tuple-net-for-2048
- **Description**: 《Temporal Difference Learning of N-Tuple Networks for the Game 2048》是第一个使用Reinforcement Learning方法解决《2048》游戏的，本项目为对该论文python版本的实现。由于《2048》游戏的独特性因而这里使用比较少见的N-tuple网络，并且在游戏交互过程中不使用探索机制。
- **Primary Language**: Python
- **License**: MIT
- **Default Branch**: master
- **Homepage**: https://www.cnblogs.com/devilmaycry812839668/p/16508118.html
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2022-07-26
- **Last Updated**: 2022-08-13

## Categories & Tags

**Categories**: Uncategorized

**Tags**: 无法运行的项目

## README

# TD-tuple-net-for-2048

#### 介绍
《Temporal Difference Learning of N-Tuple Networks for the Game 2048》是第一个使用Reinforcement Learning方法解决《2048》游戏的，本项目为对该论文python版本的实现。由于《2048》游戏的独特性因而这里使用比较少见的N-tuple网络，并且在游戏交互过程中不使用探索机制。


#### 项目文件说明
environ文件夹下面为《2048》游戏的运行环境，其中，env_5bits_2048.py为单游戏环境版本，env_vec.py为多个游戏组成的向量环境（等同于强化学习中的多环境实体的加速训练法）。
tuple_17_4文件夹下面为N-Tuple网络的实现，这里使用的是numpy的array类型实现的。
q_learning.py为算法文件，实现了原论文《Temporal Difference Learning of N-Tuple Networks for the Game 2048》中的Q-learning方法。

#### 不能运行的情况说明
准确的说这个项目是可以正常运行的，但是这个项目运行一段时间后（往往就是二十几分钟）就会出现N-Tuple网络的权重溢出的错误，于是将每次训练的误差值设置在[-10,10]区间内，运行一段时间后发现运行结果极为不好，准确的说这个项目所实现的算法其性能还不如随机选择的好。花费了大量时间后也没有找到合适的解决方法，于是决定将该项目废弃掉。