首页 > 解决方案 > 强化学习参数化动作空间

问题描述

我一直在处理带有参数化动作空间的 RL 问题:有一组有限的离散动作 A = {a_1, a_2, ..., a_k},每个 a_i 都与一组连续值参数 C_i 相关联= {c_1, c_2, ... c_n}(这里我省略了 c 和 n 对 i 的依赖)。理论上,动作空间是所有对 (a, c) 与 A 中的 a 和从相应参数集 C 中选择的 c 的并集。为简单起见,让我们看一下具体示例 A = {1, 2}, C_1 = { c_11},C_2 = {c_21,c_22}。

在我的实现中,一个动作被视为 (a, c_11, c_21, c_22),以及一个允许我为 a 的每个值选择适当的连续参数的映射。这样做的好处是 (a, c_11, c_21, c_22) 的分量是独立的,因此将动作概率因子计算为单个分量。另外,我放弃了不相关的连续参数的概率,即在计算log P((1, c_11, c_21, c_22))时,我只考虑log P(D=1) + log P(C_11 = c_11)。

我已经阅读了一些关于参数化动作空间的论文:见这里这里这里

在我看来,事情并没有按照我描述的方式完成。所以我的问题是:以这种方式实现动作空间有意义吗?谢谢!

标签: reinforcement-learning

解决方案


推荐阅读