橘朵
暂无个性签名
——来自《强化学习理论与实践- 第一期》·15浏览
老师,这个策略梯度目标函数构建感觉有点抽象难以理解
一般来说目标函数构建都是真实值和预测值,这个目标函数的真实值怎么得到的,J1构建的详细步骤是什么?谢谢老师