reinforcement-learning - 了解强化学习中的奖励功能(atari 突破)
问题描述
我试图了解 Deepmind 实现的 Breakout atari 中的奖励功能。我对奖励有点困惑。它们使用四帧表示每个状态,并且取决于每个动作的奖励将在四帧后收到。我的问题是,如果球被卡住了怎么办,它在哪里获得了很多奖励,如何确定获得奖励的相同动作是导致更多奖励的原因?
我正在谈论的案例:
解决方案
推荐阅读
- go - goroutine 拆分策略
- c# - Windows 反恶意软件扫描接口 - ASP.NET/IIS
- python - 如何将字数数组写入 csv 文件?
- javascript - NPM 在 react-date-range 包中找不到模块 'date-fns/local/en-US'
- batch-file - 如何在批处理文件中按字母顺序列出当前目录中的文件
- html - 如何阻止 Shopify 截断页面标题
? - c# - 在任务中使用 async/await
- azure - 是否可以通过其 API 使用 Azure AD B2C 身份验证?
- android - 来自 Keystore 的密钥密码
- javascript - jwt 通过 httponly cookie 提供服务,以某种方式找出 is-logged-in