微博
加入微博一起分享新鲜事
登录
|
注册
140
【百面大模型-8】大模型PPO中的奖励是什么? 在强化学习的过程中,奖励通常只在序列结束时才会出现,其他中间步骤的奖励为 0,折扣因子为 1,为Reward Model输出的标量结果。 为了防止模型被 Reward Model 过度优化,需要在奖励中加入 KL 惩罚项。 在奖励函数中,额外加入的这一项基于强化学习(R ...
请登录并选择要私信的好友
300
【百面大模型-8】大模型PPO中的奖励是什么? 在强化学习的过程中,奖励通常只在序列结束时才会出现,其他中间步骤的奖励为 0,折扣因子为 1,为Reward Model输出的标量结果。 为了防止模型被 Reward Model 过度优化,需要在奖励中加入 KL 惩罚项。 在奖励函数中,额外加入的这一项基于强化学习(R ...
已选择
0
张,还能选择
1
张
来自互联网
赞一下这个内容
公开
分享
获取分享按钮
正在发布微博,请稍候