reinforcement-learning - 我们如何评估策略梯度方法的回报中的每个奖励?
问题描述
嗨 StackOverflow 社区,
我对强化学习中的策略梯度方法有疑问。
在策略梯度方法中,我们基于从该步骤开始的回报(即总奖励)来增加/减少动作的对数概率。所以如果我们的回报很高,我们会增加它,但我在这一步遇到了问题。
假设我们的回报中有三个奖励。虽然这三个奖励加起来很高,但是第二个奖励实在是太差了。
我们如何处理这个问题?我们如何分别评估每个奖励?这种策略梯度方法是否有替代版本?
解决方案
这是一个多目标问题,其中奖励不是标量而是向量。根据定义,在经典意义上没有单一的最优策略,但是有一组帕累托最优策略,即,你不能在不损失一些东西的情况下在一个目标(例如,第一次奖励的最大总和)上表现得更好另一个目标(其他奖励的最大总和)。在优化(通常是遗传算法)和强化学习中,有很多方法可以解决多目标问题。天真地,您可以通过线性加权对奖励应用标量化,但这确实效率低下。更复杂的方法学习策略参数空间中的流形(例如this)。
推荐阅读
- apache-kafka - 如何使用 curl 在融合 kafka 中创建带有分区的主题
- module - 我的私人代码在哪里公开?
- mongodb - 在 Mongo DB 中过滤深度嵌套的对象数组
- sql - 使用 Bash 脚本构建 SQL 更新语句
- generics - 具有通用单独参数的功能调用中的不兼容实际参数。一种使用锚定类型的方法?
- java - 奇怪的java重命名json属性名
- javascript - npm 编译警告(解析错误:Unexpected token, expected ";" )
- jenkins - 如何根据特定条件从詹金斯发布松弛通知到多个渠道
- internationalization - 带有 Nuxt.js i18n 的动态 CTA url
- android - Android 折叠工具栏,如 Android 设置应用程序