machine-learning - 强化学习是否适用于 RANDOM 环境？

问题描述

我有一个关于强化学习（RL）在我们试图解决的问题上的适用性的基本问题。

我们正在尝试将 RL 用于库存管理——其中需求完全是随机的（它可能在现实生活中有一种模式，但现在让我们假设我们被迫将其视为纯粹随机的）。

据我了解，RL 可以帮助学习如何玩游戏（比如国际象棋）或帮助机器人学习走路。但是所有游戏都有规则，“推车杆”（OpenAI Gym）也有规则——有“物理”规则来控制推车杆何时倾倒。

对于我们的问题，没有规则——环境随机变化（对产品的需求）。

RL 真的适用于这种情况吗？

如果确实如此 - 那么什么会提高性能？

更多细节： - “环境”中唯一可用的两个刺激是产品“X”的当前可用水平和当前需求“Y” - “动作”是二元的 - 我是否订购数量“Q”来补充或者我不（离散行动空间）。- 我们正在使用 DQN 和 Adam 优化器。

我们的结果很差——我承认我只训练了大约 5,000 或 10,000 人——我应该让它训练几天，因为它是一个随机环境吗？

谢谢拉杰什

标签： machine-learningreinforcement-learning

您说的是非平稳意义上的随机，所以，不，RL 在这里并不是最好的。

强化学习假设您的环境是静止的。在整个学习过程中，环境的潜在概率分布（转换函数和奖励函数）必须保持不变。

当然，RL 和 DRL 可以处理一些稍微不稳定的问题，但它在这方面很挣扎。马尔可夫决策过程 (MDP) 和部分可观察 MDP 假定平稳。因此，专门用于利用类似 MDP 的环境的基于值的算法，例如 SARSA、Q-learning、DQN、DDQN、Dueling DQN 等，将很难在非平稳环境中学习任何东西。您越倾向于基于策略的算法，例如 PPO、TRPO，甚至更好的无梯度算法，例如 GA、CEM 等，您拥有的机会就越大，因为这些算法不会尝试利用这个假设。此外，使用学习率对于确保代理永远不会停止学习至关重要。

您最好的选择是采用黑盒优化方法，例如遗传算法等。

machine-learning - 强化学习是否适用于 RANDOM 环境？

问题描述

解决方案

推荐阅读