reinforcement-learning - Epsilon 贪婪策略的概率加起来不等于 1
问题描述
我正在从 Sutton 和 Barto 的 Reinforcement Learning: An Introduction book 中学习强化学习。我已完成第 5.4 节,ε 贪婪策略。
我理解这个概念本身,但概率加起来不等于 1。请帮忙。
对于非贪婪动作,我们有 ε /|A(S)|。这是有道理的,因为 ε 在 S 的所有可用动作中被分割,所以你取 A(S) 的基数。
但是对于贪心动作,我们有 1 - ε + ε /|A(S)| . 如果你把它加到上面,它总和不等于 1。
请帮忙。真不明白这一点。
解决方案
推荐阅读
- node.js - 这是 node.js 中的一个 cron 作业
- firebase - 希望 Firebase 电话身份验证与电子邮件链接,然后仅继续
- python - 如何使用“编辑配置文件”路由的现有数据预先填写 Flask WTForms 表单?
- pandas - 将 Python Groupby 和聚合转换为 Postgres SQL
- javascript - 卡片/名片JS插件
- applescript - 如何使用applescript向所有iphone联系人发送消息
- javascript - 如何在 Material-UI 中设置 RadioGroup 的默认选择
- vb.net - WebClient 在 Win10 中工作,但在部署到 Win Server 2019 后无法工作
- macos - 当内容更改时,如何在 MAC 上以最小的“更改流失”创建 DMG 文件?
- wechat - 微信小程序调试页面的栈