4. PPO算法对环境进行学习_【深度强化学习落地指南】RL环境开发+PPO训练-CSDN在线视频培训

使用OpenAI开源的SpinningUp项目中的PPO算法，训练智能体探索前面所开发的网格世界环境，查看训练结果，绘制训练曲线。

1. 介绍强化学习环境基本要素，接口；

2. 讲解基于Python的强化学习环境开发；

3. 讲解如何使用SpinningUp中的PPO算法训练智能体去探索学习自己开发的RL环境。