reinforcement-learning - OpenAI 健身房 GuessingGame-v0 可能的解决方案

我一直在努力解决作为 OpenAI 健身房一部分的 GuessingGame-v0 环境。

在环境中，每个情节都会选择一个范围内的随机数，并且代理必须“猜测”这个随机数是什么。仅向代理提供对猜测是否太大或太小的观察。

在研究了如何构建问题后，我认为可以将问题构建为隐马尔可夫模型，但我不确定如何做到这一点。

每一集随机选择的数字都会改变，因此我不知道模型如何不必改变每一集，因为目标状态不断变化。

除了 OpenAI 提供的文档之外，我找不到关于该环境或任何类似环境的任何资源，但我认为这些文档没有用。

我将非常感谢有关如何解决此环境的任何帮助。

标签： reinforcement-learningopenai-gymhidden-markov-models

我将此作为答案，因此人们不必通读评论列表。

您需要一个可以简单循环的程序：

生成随机数
代理猜测一个数字（在允许的猜测范围内）
测试数字是否在1%以内。
如果数字在 1% 以内，则停止迭代，也许此时打印猜测
如果迭代在第 200 步，停止迭代并可能产生一些输出，给出最终猜测的数字以及它不在 1% 以内的事实
如果不是 200 步或 1%：a) 如果数字太高，记录猜测并且它太高，或 b) 如果数字太低，记录猜测并且它太低。遍历该数字绑定。重复直到达到 1% 或 200 步标准。

你的另一个想法：你需要一个起始的低数字和一个起始的高数字吗？

有多种方法可以实现此解决方案。还有一系列编程软件可以在其中实施该解决方案。您使用的特定软件可能是您最熟悉的软件。

祝你好运！