reinforcement-learning - 强化学习参数化动作空间
问题描述
我一直在处理带有参数化动作空间的 RL 问题:有一组有限的离散动作 A = {a_1, a_2, ..., a_k},每个 a_i 都与一组连续值参数 C_i 相关联= {c_1, c_2, ... c_n}(这里我省略了 c 和 n 对 i 的依赖)。理论上,动作空间是所有对 (a, c) 与 A 中的 a 和从相应参数集 C 中选择的 c 的并集。为简单起见,让我们看一下具体示例 A = {1, 2}, C_1 = { c_11},C_2 = {c_21,c_22}。
在我的实现中,一个动作被视为 (a, c_11, c_21, c_22),以及一个允许我为 a 的每个值选择适当的连续参数的映射。这样做的好处是 (a, c_11, c_21, c_22) 的分量是独立的,因此将动作概率因子计算为单个分量。另外,我放弃了不相关的连续参数的概率,即在计算log P((1, c_11, c_21, c_22))时,我只考虑log P(D=1) + log P(C_11 = c_11)。
我已经阅读了一些关于参数化动作空间的论文:见这里、这里和这里
在我看来,事情并没有按照我描述的方式完成。所以我的问题是:以这种方式实现动作空间有意义吗?谢谢!
解决方案
推荐阅读
- sql-server - 禁用 SA,创建新登录,将数据库角色成员更改为数据库所有者
- hl7-fhir - _include 在 hapi fhir 中
- sql - 如何在 SQL 中将 NOT IN 语句转换为 NOT EXISTS 语句?
- html - 无法在带有媒体查询的按钮上进行样式设置
- gcc - 编译程序并链接所有库和包含路径
- javascript - 如何使高 DPI 画布变得灵活?
- python - 在类中调用 str 方法
- android - Snackbar 在给定视图中找不到合适的父级
- java - Windows 10 更改 java 版本?
- python - 有没有办法通过python中的参数在列表中搜索对象?