Q-learning算法
目标函数与公式解析