微博
加入微博一起分享新鲜事
登录
|
注册
140
On-policy 和 Off-policy1. 策略梯度 是一个 on-policy 的算法。 因为 是 一个 actor 按照 policy 去和 env 互动,得到一系列轨迹,根据 它 互动 的信息(s,a,r)按照 策略梯度 的 公式 更新 策略π 的参数… https://ddsog.com
请登录并选择要私信的好友
300
On-policy 和 Off-policy1. 策略梯度 是一个 on-policy 的算法。 因为 是 一个 actor 按照 policy 去和 env 互动,得到一系列轨迹,根据 它 互动 的信息(s,a,r)按照 策略梯度 的 公式 更新 策略π 的参数… https://ddsog.com
赞一下这个内容
公开
分享
获取分享按钮
正在发布微博,请稍候