reinforcement-learning - 我们如何评估策略梯度方法的回报中的每个奖励？

问题描述

嗨 StackOverflow 社区，

我对强化学习中的策略梯度方法有疑问。

在策略梯度方法中，我们基于从该步骤开始的回报（即总奖励）来增加/减少动作的对数概率。所以如果我们的回报很高，我们会增加它，但我在这一步遇到了问题。

假设我们的回报中有三个奖励。虽然这三个奖励加起来很高，但是第二个奖励实在是太差了。

我们如何处理这个问题？我们如何分别评估每个奖励？这种策略梯度方法是否有替代版本？

标签： reinforcement-learningpolicy-gradient-descent

这是一个多目标问题，其中奖励不是标量而是向量。根据定义，在经典意义上没有单一的最优策略，但是有一组帕累托最优策略，即，你不能在不损失一些东西的情况下在一个目标（例如，第一次奖励的最大总和）上表现得更好另一个目标（其他奖励的最大总和）。在优化（通常是遗传算法）和强化学习中，有很多方法可以解决多目标问题。天真地，您可以通过线性加权对奖励应用标量化，但这确实效率低下。更复杂的方法学习策略参数空间中的流形（例如this）。

reinforcement-learning - 我们如何评估策略梯度方法的回报中的每个奖励？

问题描述

解决方案

推荐阅读