-
强化学习
零基础,想要入门或从事强化学习研究的人。
-
系统学习
本课程从由浅入深,系统全面地教大家如何入门、从事强化学习。
-
实例解析
在教学的过程中,配合具体案例、代码演示,让学员可以一目了然,快速上手。
-
01
强化学习概述
郭宪
1. 强化学习要解决的问题
2. 强化学习的发展历史
3. 强化学习方法的分类
4. 强化学习方法的发展趋势 -
02
马尔科夫决策过程
郭宪
注:本节课共分为二个学时
1. 基本概念,马尔科夫性、马尔科夫过程、马尔科夫决策过程
2. MDP基本元素:策略、回报、值函数、状态行为值函数
3. 贝尔曼方程、优策略。
4. 强化学习的数学形式化
5. Python介绍,及简单的代码演示。
-
03
基于模型的动态规划方法
郭宪
注:本节课共分为两个学时
1. 动态规划概念介绍
2. 策略评估过程介绍
3. 策略改进方法介绍
4. 策略迭代和值迭代
5. 值迭代与优控制介绍
6. 基于 python 的动态规划方法演示 -
04
蒙特卡罗方法
郭宪
注:本节课共分为两个学时
1. 蒙特卡罗策略评估方法
2. 蒙特卡罗策略改进方法
3. 基于蒙特卡罗的强化学习方法
4. 同策略和异策略强化学习
5. 重要性采样
6. 基于 python 的蒙特卡罗强化学习方法演示 -
05
时间差分方法
郭宪
注:本节课共分为两个学时
1. DP,MC 和 TD 方法比较
2. MC 和 TD 方法偏差与方差平衡
3. 同策略 TD 方法:Sarsa 方法
4. 异策略 TD 方法:Qlearning 方法
5. N 步预测及 的前向和后向观点
6. 基于 python 的 TD 方法实现 -
06
Gym 环境构建及强化学习算法实现
郭宪
注:本节课共分为两个学时
1. Gym环境的安装和测试
2. Gym环境创建的关键函数讲解
3. 创建自己的Gym环境讲解
4. 基于自己创建的Gym环境实现 MC,TD等算法 -
07
值函数逼近方法
郭宪
注:本节课共分为两个学时
1. 值函数的参数化表示
2. 值函数的估计过程
3. 值函数的优化方法,随机梯度下降和半梯度下降法
4. 值函数的线性逼近 -
08
DQN 方法及其变种
郭宪
注:本节课共分为两个学时
1. DQN 方法介绍
2. DQN 变种 Double DQN, Prioritized Replay, Dueling Network -
09
策略梯度方法
郭宪
注:本节课共分为两个学时
1. 策略梯度方法介绍
2. 似然率策略梯度推导及重要性采样视角推导
3. 似然率策略梯度的直观理解
4. 常见的策略表示
5. 常见的减小方差的方法:引入基函数法,修改估计值函数法

扫码二维码进群与志同道合的小伙伴一起交流
-
1.直播错过,有视频可以观看吗?答:每期直播都有视频回放,付费学员可反复观看,有效期2年。
-
2.代码资料学员可以拿到吗?答:每期课件及代码资料都会上传供学员下载,详见回放课程目录的下载按钮。
-
3.开课前会有通知吗?答:已经购买课程学院可关注公众号“CSDN程序员研修院”,获取开课前提醒,也可以绑定手机号,或者短信提醒通知。
-
4.学习中遇到问题怎么办?答:学员付费后会有vip付答疑费专享群,讲师不定期答疑,并且可长期享受答疑服务,让您的学习全程无忧。
-
5.报名后如何进入直播间听课?答:PC端输入网址https://edu.csdn.net 在”我的—我的直播课”。(微信购买学院,请通过微信扫码登录)、微信端在“直播讲堂—我的”直播讲堂
-
6.报名后如何查看订单?答:PC端,在“我的”--->“我的订单”进入查看即可。微信端,在“在线课程—我的—我的订单”中查看。
-
7.报名后是否可以开发票?答:可以开具发票,请联系学院页面右侧的“学院客服”提交开票申请。
-
8.PC端如何观看直播回放?答:使用电脑观看,输入https://edu.csdn.net 或报名网址,登录CSDN账号(若您使用微信付费报名的,需在电脑上选择微信登录,扫码即可登录),“我的—我的直播课”。
-
9.移动端如何观看直播回放?因为版权问题,需要下载CSDN程序员研修院客户端https://edu.csdn.net/app,进入我的订单即可观看课程回顾。
最新直播还未开始哦,请查看上期直播回顾~~ヾ(≧▽≦*)
3