仓库 - liaosiyang (liaosiyang)

1

0

3

liaosiyang/A05_rl forked from cv-xueba/A05_rl

本课程主要介绍强化学习的基础知识，其目标是帮助同学们快速、顺利地进入强化学习及其应用领域的研究工作。课程主要内容包含有限马尔可夫决策过程，动态规划，无模型预测与控制(SASA,Q-Learning)，价值函数逼近(DQN)，策略梯度方法(REINFORCE)，执行者/评论者方法（AC,TRPO,PPO)，连续动作空间的确定性策略(DDPG)。

最近更新：3年多前

1

0

28

liaosiyang/Wonderful forked from Bmob后端云/Wonderful

图片分享社交平台

最近更新：接近11年前

liaosiyang

1 0 3 liaosiyang/A05_rl forked from cv-xueba/A05_rl

1 0 28 liaosiyang/Wonderful forked from Bmob后端云/Wonderful

搜索帮助

1

0

3

liaosiyang/A05_rl forked from cv-xueba/A05_rl

1

0

28

liaosiyang/Wonderful forked from Bmob后端云/Wonderful