导航
课程首页
  • PM-Summit 全球产品经理大会云会员
  • SDCon 全球软件研发技术大会云会员
  • ML-Summit 全球机器学习技术大会云会员
  • C++性能优化高端培训
  • AI全栈开发实战营
精品课 极客时间

C 知道

登录
会员中心
消息
历史
创作中心
创作
学习中心
成为讲师

深度强化学习极简入门与Pytorch实战 强化学习经典文献阅读 10.1 PG策略梯度定理证明(二)

深度强化学习极简入门与Pytorch实战
共43节 2548人在学 课程详情
课程目录
讨论留言
  • 课程介绍与强化学习概述

    • 1.1 课程介绍
    • 1.2 强化学习概述
  • 马尔可夫决策过程

    • 2.1 马尔可夫决策过程
    • 2.2 价值函数与贝尔曼方程
  • Python编程基础

    • 3.1 Python开发环境配置
    • 3.2 Python中的变量与list
    • 3.3 python中常用于RL的变量类型
    • 3.4 Python中的函数和类
    • 3.5 Numpy计算库使用基础
    • 3.6 Matplotlib绘图基础
  • 蒙特卡洛方法

    • 4.1 MC估计圆周率
    • 4.2 MC估计价值函数
    • 4.3 Gym环境以及二十一点游戏
    • 4.4 MC估计玩二十一点游戏代码讲解
  • 时间差分方法

    • 5.1 Sarsa和Q-learning原理
    • 5.2 使用Sarsa和Q-leaing玩CliffWalking游戏
  • 深度学习理论与编程基础

    • 6.1 梯度下降算法原理
    • 6.2 梯度下降算法编程实现
    • 6.3 深度神经网络理论基础
    • 6.4 编程实战:波士顿房价预测
  • 深度Q网络(DQN)

    • 7.1 DQN-理论
    • 7.2 DQN实战-实现月球车着陆
  • 策略梯度方法

    • 8.1 基于价值方法的局限性
    • 8.2 基于策略的方法
    • 8.3 REINFORCE算法
    • 8.4 REINFORCE编程实现
    • 8.5 PPO如何解决REINFORCE算法的缺点
    • 8.6 PPO利用重要性采样和代理函数的裁剪
    • 8.7 PPO中的Critic网络
    • 8.8 PPO智能体结构设计和实现
    • 8.9 经验池实现和神经网络更新
  • 构建自己的RL环境并使用SpinningUp代码

    • 9.1 OpenAI Gym风格环境的要素
    • 9.2 环境构建实例--网格世界(设计)
    • 9.3 环境构建实例--网格世界(代码)
    • 9.4 PPO算法对环境进行学习
  • 强化学习经典文献阅读

    • 10.1 策略梯度定理(PGSutton2000NIPS)-摘要和引言
    • 10.1 PG策略梯度定理证明(一)
    • 10.1 PG策略梯度定理证明(二)
  • 旧版本

    • 4.2 动作价值函数的MC估计
    • 4.3 Q值表与epsilon-greedy策略
    • 4.4策略评估与策略改进
    • 4.5 MC算法伪代码
    • 4.6 MC算法的增量实现
回复
切换为未回复评论
切换为时间正序
请发表友善的回复…
发表回复
发表回复
按下Enter换行,Ctrl+Enter发表内容
编辑
预览
    轻敲空格完成输入
    • 显示为
    • 卡片
    • 标题
    • 链接

    反馈

    播放页问题反馈
    视频学习中有任何产品建议都可由此反
    馈,我们将及时处理!

    课时介绍

    9.1 PolicyGgradient-PG策略梯度定理证明(二)

    课程介绍

    强化学习作为行为主义人工智能学派的典型代表,近几年与深度神经网络相结合形成的深度强化学习(DRL),达到了令人惊叹的智能水平:2015年DQN智能体玩视频游戏超越人类水平,2017年基于PPO算法的Open Five在《Dota》游戏中战胜人类顶尖职业玩家,2019年基于DRL的AlphaStar在《星际争霸II》游戏中战胜人类顶尖职业玩家。深度强化学习为通用人工智能(AGI)带来了新的希望!

     

    然而,深度强化学习理论较为抽象,学习曲线陡峭,需要大量的时间和精力才能入门,很多硕士和博士往往浪费了大量时间在入门阶段,耽误了学习和科研进度。

     

    本门课程的特点之一:精炼而不失重点。本门课程深入浅出,根据多年深度强化学习科研和项目实践经验,选取了强化学习入门所必须掌握的知识点,为学员构建一个最小而必要的强化学习知识体系,为后续的研究和论文专业以及工程实践打下坚实的基础。

     

    本门课程的特点二:强调实战。为每个知识点精心设计设计编程实践练习,让学员在练习中理解和掌握知识点。课程设计了综合实战项目——开发强化学习智能体并参加强化学习比赛,提供竞赛baseline代码。

    课程内容

    推荐课程

    信息系统项目管理师自考笔记

    李明 · 736人在学

    python从0到1:期货量化交易系统(CTP实战,高频及合成K线数据

    王先生 · 22147人在学

    手把手搭建Java超市管理系统【附源码】(毕设)

    汤小洋 · 4210人在学

    Java毕设springboot外卖点餐系统 毕业设计毕设源码 使用教

    黄菊华 · 791人在学

    基于SSM酒店管理系统(毕设)

    小尼老师 · 842人在学

    java项目实战之购物商城(java毕业设计)

    Long · 5157人在学

    手把手搭建Java求职招聘系统【附源码】(毕设)

    汤小洋 · 1508人在学

    Python Django 深度学习 小程序

    钟翔 · 2328人在学

    城管局门前三包管理系统+微信小程序(vue+springboot)

    赖国荣 · 600人在学

    Vue+Uni-app(uniapp)入门与实战+赠送仿美团点餐小程序

    李杰 · 3992人在学

    正在试验
    后自动删除环境
    课程实验
    本次实验时间已到期 00:00:00

      订阅失败

      深度强化学习极简入门与Pytorch实战
      深度强化学习极简入门与Pytorch实战 ...

      订阅列表已满,请先移出部分订阅内容。

      当前章节需购买后观看
      开通超级会员免费看!专家精选系列课程,满足你从入门到精通!更有问答月卡免费送,你的问题有问必答!
      提交答案

      购买课程

      扫码完成付费,可继续学习全部课程内容

      加载中...
      课件正在飞速打包中,请耐心等待几秒钟~

      视频问题反馈

      提交遇到的问题我们会尽快解决的 ~

      首页
      博客
      下载
      学习
      社区
      C知道
      GitCode
      InsCodeAI
      技术会议
      会员中心
      创作中心
      联系我们
      工作时间: 8:30 - 22:00
      客服电话: 400-660-0108
      kefu@csdn.net在线客服
      • 关于我们
      • 招贤纳士
      • 商务合作
      • 寻求报道
      • 京ICP备19004658号
      • 经营性网站备案信息
      • 公安备案号11010502030143
      • 营业执照
      • 北京互联网违法和不良信息举报中心
      • 家长监护
      • 中国互联网举报中心
      • 网络110报警服务
      • Chrome商店下载
      • 账号管理规范
      • 版权与免责声明
      • 版权申诉
      • 出版物许可证
      • ©1999-2024北京创新乐知网络技术有限公司