Code for the paper "Evolution Strategies as a Scalable Alternative to Reinforcement Learning", Paper Url: https://arxiv.org/abs/1703.03864
A Simple Example for Imitation Learning with Dataset Aggregation (DAGGER) on Torcs Env,强化学习中的模仿学习算法DAGGER,原地址:https://github.com/zsdonghao/Imitation-Learning-Dagger-Torcs
Flappy Bird hack using Deep Reinforcement Learning (Deep Q-learning),该项目只上传了算法文件并没有上传游戏环境,因此不能运行。只有同时下载Flappy Bird游戏环境才可以成功运行,游戏环境可见于github上原项目地址中。
Nvidia提出的GPU版本实现的A3C算法,论文《Reinforcement Learning thorugh Asynchronous Advantage Actor-Critic on a GPU》,该算法使用单GPU进行推理和训练(actor和critic),多进程对环境进行在线数据采样,共同调用GPU中的actor,官方地址:https://github.com/NVlabs/GA3C
论文“ES-MAML: Simple Hessian-Free Meta Learning”的官方原作者代码; 论文地址:https://arxiv.org/abs/1910.01215 代码原地址:https://github.com/google-research/google-research
Google公司为reinforcement learning算法推出的分布式经验池框架,底层实现为Google的 Protocol Buffer以及gRpc。由于该框架主要为Google的TensorFlow框架以及Google推出的其它各种reinforcement learning框架服务,因此该框架相关文档较少,可用性较差。
tensorflow官方给出的reinforcement learning框架,该框架设计过于复杂现已停止维护,但是由于其作为Google官方推出的强化学习框架还是有一定学习价值的,原地址:https://github.com/tensorflow/agents
Reinforcement Learning经典论文《IMPALA: Scalable Distributed Deep-RL with Importance WeightedActor-Learner Architectures》的Deepmind官方实现,TensorFlow框架的。
根据网友实现的《2048》游戏的TDL解法,使用python语言重写的,性能是难以与原版C++实现所比较的。本库意义在于代码逻辑的示范,并没有太多实际运行性能的价值。这里所使用的TDL算法是参考README中的文献所实现的,但是需要注意这里并没有严格实现,仅仅是实现了论文中部分的算法。
《Temporal Difference Learning of N-Tuple Networks for the Game 2048》是第一个使用Reinforcement Learning方法解决《2048》游戏的,本项目为对该论文python版本的实现。由于《2048》游戏的独特性因而这里使用比较少见的N-tuple网络,并且在游戏交互过程中不使用探索机制。
python语言编写的《2048》游戏及启发式AI算法。参考项目:https://gitee.com/devilmaycry812839668/heuristic-2048,可以看做是对其python版本的重构。
《2048》游戏目前最好解法JAVA版本,论文:《Mastering 2048 with Delayed Temporal Coherence Learning, Multi-Stage Weight Promotion, Redundant Encoding and Carousel Shaping》。 JAVA版包含训练和测试的完整代码。
《2048》游戏目前最好解法C++版本,论文:《Mastering 2048 with Delayed Temporal Coherence Learning, Multi-Stage Weight Promotion, Redundant Encoding and Carousel Shaping》。注意:C++版本中没有训练代码,只能导入训练好的参数后进行测试,训练和测试的完整代码为JAVA版
https://stackoverflow.com/questions/22342854/what-is-the-optimal-algorithm-for-the-game-2048 (外网stackoverflow上投票率最高的启发式AI方法解决《2048》游戏,最经典)。该版本采用启发式的AI算法不需要训练并可以直接进行求解,缺点为每次选择动作都需要遍历较大规模的棋盘状态导致速度效率较差。
Ubuntu系统下使用vscode作为IDE通过编写Makefile的方式实现对C++代码的编译,这里给出C++示例代码、开发环境vscode环境下的完整配置文件(.vscode/launch.json和.vscode/task.json)、以及编写的Makefile文件。
网上找到的一个外国小哥写的DQN及扩展变体算法的代码库。小哥的个人主页:https://by571.github.io/,Github地址:https://github.com/BY571