reinforcement-learning - OpenAI 健身房 GuessingGame-v0 可能的解决方案
问题描述
我一直在努力解决作为 OpenAI 健身房一部分的 GuessingGame-v0 环境。
在环境中,每个情节都会选择一个范围内的随机数,并且代理必须“猜测”这个随机数是什么。仅向代理提供对猜测是否太大或太小的观察。
在研究了如何构建问题后,我认为可以将问题构建为隐马尔可夫模型,但我不确定如何做到这一点。
每一集随机选择的数字都会改变,因此我不知道模型如何不必改变每一集,因为目标状态不断变化。
除了 OpenAI 提供的文档之外,我找不到关于该环境或任何类似环境的任何资源,但我认为这些文档没有用。
我将非常感谢有关如何解决此环境的任何帮助。
解决方案
我将此作为答案,因此人们不必通读评论列表。
您需要一个可以简单循环的程序:
- 生成随机数
- 代理猜测一个数字(在允许的猜测范围内)
- 测试数字是否在1%以内。
- 如果数字在 1% 以内,则停止迭代,也许此时打印猜测
- 如果迭代在第 200 步,停止迭代并可能产生一些输出,给出最终猜测的数字以及它不在 1% 以内的事实
- 如果不是 200 步或 1%:a) 如果数字太高,记录猜测并且它太高,或 b) 如果数字太低,记录猜测并且它太低。遍历该数字绑定。重复直到达到 1% 或 200 步标准。
你的另一个想法:你需要一个起始的低数字和一个起始的高数字吗?
有多种方法可以实现此解决方案。还有一系列编程软件可以在其中实施该解决方案。您使用的特定软件可能是您最熟悉的软件。
祝你好运!
推荐阅读
- c++ - 如何使用管道通过文件在父子之间共享数据?
- java - Java注释处理器不在生成的源中生成文件
- powershell - 如何在powershell中读取machine.config并检查是否存在密钥
- javascript - 在 Angular 中调用远程 URL 时出现 CORS 策略错误
- r - 如何自定义 ctree(包 'party')?
- google-apps-script - 仅当文件存在时如何“复制到工作表”
- r - install.packages 'path' 中的警告不可写 R
- java - 模拟构建器模式的外部类中存在的方法(单元测试)
- reactjs - 如何将 authToken 设置为 localStorage
- python - 更改附件标题 MIME python