PPO算法与公式推导
与环境交互得到所需数据