4. PPO算法对环境进行学习