代码拉取完成,页面将自动刷新
近端策略优化算法(Proximal Policy Optimization, PPO)是一种新型的Policy Gradient算法。为解决Policy Gradient算法中步长难以确定的问题,PPO提出了新的目标函数可以在多个训练步骤实现小批量的更新,是目前强化学习领域适用性最广的算法之一。
参考实现:
url=https://github.com/nikhilbarhate99/PPO-PyTorch
commit_id=6d05b5e3da80fcb9d3f4b10f6f9bc84a111d81e3
适配昇腾 AI 处理器的实现:
url=https://gitee.com/ascend/ModelZoo-PyTorch.git
code_path=PyTorch/built-in/rl/
推荐使用最新的版本准备训练环境。
表 1 版本配套表
软件 | 版本 | 安装指南 |
---|---|---|
Driver | AscendHDK 25.0.RC1.1 | 《驱动固件安装指南 》 |
Firmware | AscendHDK 25.0.RC1.1 | |
CANN | CANN 8.1.RC1 | 《CANN 软件安装指南 》 |
PyTorch | 2.1.0 | 《Ascend Extension for PyTorch 配置与安装 》 |
torch_npu | release v7.0.0-pytorch2.1.0 |
三方库依赖如下表所示。
表 2 三方库依赖表
Torch_Version | 三方库依赖版本 |
---|---|
PyTorch 2.1 | Box2D==2.3.2 Box2D-kengz==2.3.3 gym==0.15.4 |
安装依赖。
在模型根目录下执行命令,安装模型对应PyTorch版本需要的依赖。
pip install -r requirements.txt
pip install gym[box2d]==0.15.4
无。
无。
本文以BipedalWalker-v2场景为例,展示训练方法,其余场景需要根据场景替换启动脚本中的超参等配置。
进入解压后的源码包根目录。
cd /${模型文件夹名称}
运行训练脚本。
该模型支持单机单卡训练和单机8卡训练。
单机单卡训练
bash test/train_full_1p.sh # 单卡训练
单机单卡性能
bash test/train_performance_1p.sh # 单卡性能
训练完成后,权重文件保存在test/output
路径下,并输出模型训练精度和性能信息。
表 3 训练结果展示表
NAME | FPS | MAX Training TimeSteps | Average Reward |
---|---|---|---|
1p-竞品V | 585.37 | 3000000 | 197.75 |
1p-NPU-Atlas 800T A2 | 284.02 | 3000000 | 256.06 |
说明:上表为历史数据,仅供参考。2025年5月10日更新的性能数据如下:
NAME | 精度类型 | FPS |
---|---|---|
1p-竞品 | FP16 | 585.37 |
1p-Atlas 900 A2 PoDc | FP16 | 413.79 |
无。
2023.08.20:首次发布。
无。
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。