首页 > 解决方案 > Epsilon 贪婪策略的概率加起来不等于 1

问题描述

我正在从 Sutton 和 Barto 的 Reinforcement Learning: An Introduction book 中学习强化学习。我已完成第 5.4 节,ε 贪婪策略。

我理解这个概念本身,但概率加起来不等于 1。请帮忙。

对于非贪婪动作,我们有 ε /|A(S)|。这是有道理的,因为 ε 在 S 的所有可用动作中被分割,所以你取 A(S) 的基数。

但是对于贪心动作,我们有 1 - ε + ε /|A(S)| . 如果你把它加到上面,它总和不等于 1。

请帮忙。真不明白这一点。

标签: reinforcement-learningmontecarlo

解决方案


推荐阅读