首页 > 解决方案 > 我们如何评估策略梯度方法的回报中的每个奖励?

问题描述

嗨 StackOverflow 社区,

我对强化学习中的策略梯度方法有疑问。

在策略梯度方法中,我们基于从该步骤开始的回报(即总奖励)来增加/减少动作的对数概率。所以如果我们的回报很高,我们会增加它,但我在这一步遇到了问题。

假设我们的回报中有三个奖励。虽然这三个奖励加起来很高,但是第二个奖励实在是太差了。

我们如何处理这个问题?我们如何分别评估每个奖励?这种策略梯度方法是否有替代版本?

标签: reinforcement-learningpolicy-gradient-descent

解决方案


这是一个多目标问题,其中奖励不是标量而是向量。根据定义,在经典意义上没有单一的最优策略,但是有一组帕累托最优策略,即,你不能在不损失一些东西的情况下在一个目标(例如,第一次奖励的最大总和)上表现得更好另一个目标(其他奖励的最大总和)。在优化(通常是遗传算法)和强化学习中,有很多方法可以解决多目标问题。天真地,您可以通过线性加权对奖励应用标量化,但这确实效率低下。更复杂的方法学习策略参数空间中的流形(例如this)。


推荐阅读