深度强化学习极简入门与Pytorch实战

深度强化学习极简入门与Pytorch实战
共43节 2543人在学 课程详情
  • 课程介绍与强化学习概述

    • 1.1 课程介绍
    • 1.2 强化学习概述
  • 马尔可夫决策过程

    • 2.1 马尔可夫决策过程
    • 2.2 价值函数与贝尔曼方程
  • Python编程基础

    • 3.1 Python开发环境配置
    • 3.2 Python中的变量与list
    • 3.3 python中常用于RL的变量类型
    • 3.4 Python中的函数和类
    • 3.5 Numpy计算库使用基础
    • 3.6 Matplotlib绘图基础
  • 蒙特卡洛方法

    • 4.1 MC估计圆周率
    • 4.2 MC估计价值函数
    • 4.3 Gym环境以及二十一点游戏
    • 4.4 MC估计玩二十一点游戏代码讲解
  • 时间差分方法

    • 5.1 Sarsa和Q-learning原理
    • 5.2 使用Sarsa和Q-leaing玩CliffWalking游戏
  • 深度学习理论与编程基础

    • 6.1 梯度下降算法原理
    • 6.2 梯度下降算法编程实现
    • 6.3 深度神经网络理论基础
    • 6.4 编程实战:波士顿房价预测
  • 深度Q网络(DQN)

    • 7.1 DQN-理论
    • 7.2 DQN实战-实现月球车着陆
  • 策略梯度方法

    • 8.1 基于价值方法的局限性
    • 8.2 基于策略的方法
    • 8.3 REINFORCE算法
    • 8.4 REINFORCE编程实现
    • 8.5 PPO如何解决REINFORCE算法的缺点
    • 8.6 PPO利用重要性采样和代理函数的裁剪
    • 8.7 PPO中的Critic网络
    • 8.8 PPO智能体结构设计和实现
    • 8.9 经验池实现和神经网络更新
  • 构建自己的RL环境并使用SpinningUp代码

    • 9.1 OpenAI Gym风格环境的要素
    • 9.2 环境构建实例--网格世界(设计)
    • 9.3 环境构建实例--网格世界(代码)
    • 9.4 PPO算法对环境进行学习
  • 强化学习经典文献阅读

    • 10.1 策略梯度定理(PGSutton2000NIPS)-摘要和引言
    • 10.1 PG策略梯度定理证明(一)
    • 10.1 PG策略梯度定理证明(二)
  • 旧版本

    • 4.2 动作价值函数的MC估计
    • 4.3 Q值表与epsilon-greedy策略
    • 4.4策略评估与策略改进
    • 4.5 MC算法伪代码
    • 4.6 MC算法的增量实现

    订阅失败

    深度强化学习极简入门与Pytorch实战
    深度强化学习极简入门与Pytorch实战 ...

    订阅列表已满,请先移出部分订阅内容。

    当前章节需购买后观看
    开通超级会员免费看!专家精选系列课程,满足你从入门到精通!更有问答月卡免费送,你的问题有问必答!
    提交答案

    购买课程

    扫码完成付费,可继续学习全部课程内容

    加载中...
    播放页问题反馈
    视频学习中有任何产品建议都可由此反
    馈,我们将及时处理!

    课时介绍

    介绍强大的python计算库Numpy,并介绍其常用的类型和函数

    课程介绍

    强化学习作为行为主义人工智能学派的典型代表,近几年与深度神经网络相结合形成的深度强化学习(DRL),达到了令人惊叹的智能水平:2015年DQN智能体玩视频游戏超越人类水平,2017年基于PPO算法的Open Five在《Dota》游戏中战胜人类顶尖职业玩家,2019年基于DRL的AlphaStar在《星际争霸II》游戏中战胜人类顶尖职业玩家。深度强化学习为通用人工智能(AGI)带来了新的希望!

     

    然而,深度强化学习理论较为抽象,学习曲线陡峭,需要大量的时间和精力才能入门,很多硕士和博士往往浪费了大量时间在入门阶段,耽误了学习和科研进度。

     

    本门课程的特点之一:精炼而不失重点。本门课程深入浅出,根据多年深度强化学习科研和项目实践经验,选取了强化学习入门所必须掌握的知识点,为学员构建一个最小而必要的强化学习知识体系,为后续的研究和论文专业以及工程实践打下坚实的基础。

     

    本门课程的特点二:强调实战。为每个知识点精心设计设计编程实践练习,让学员在练习中理解和掌握知识点。课程设计了综合实战项目——开发强化学习智能体并参加强化学习比赛,提供竞赛baseline代码。

    课程内容

    推荐课程

    信息系统项目管理师自考笔记

    李明 · 730人在学

    python从0到1:期货量化交易系统(CTP实战,高频及合成K线数据

    王先生 · 22123人在学

    手把手搭建Java超市管理系统【附源码】(毕设)

    汤小洋 · 4210人在学

    Java毕设springboot外卖点餐系统 毕业设计毕设源码 使用教

    黄菊华 · 788人在学

    基于SSM酒店管理系统(毕设)

    小尼老师 · 842人在学

    java项目实战之购物商城(java毕业设计)

    Long · 5155人在学

    手把手搭建Java求职招聘系统【附源码】(毕设)

    汤小洋 · 1506人在学

    Python Django 深度学习 小程序

    钟翔 · 2324人在学

    城管局门前三包管理系统+微信小程序(vue+springboot)

    赖国荣 · 599人在学

    Vue+Uni-app(uniapp)入门与实战+赠送仿美团点餐小程序

    李杰 · 3987人在学

    正在试验
    后自动删除环境
    课程实验
    本次实验时间已到期 00:00:00
    课件正在飞速打包中,请耐心等待几秒钟~