强化学习概述
马尔科夫决策过程
基于模型的动态规划方法
蒙特卡罗方法
时间差分方法
Gym环境构建及强化学习算法实现
值函数逼近方法
DQN方法及其变种
策略梯度方法
订阅失败
购买课程
扫码完成付费,可继续学习全部课程内容