首页 > 解决方案 > 我可以在 SB3 中创建上下文多臂强盗代理吗?

问题描述

我想知道是否可以创建一个等效于contextual Multi-Armed Bandit使用 SB3 库的代理。

在我看来,这是一个简单得多的代理,但是查看他们说他们不涵盖那种算法的库文档,我想知道是否可以通过调整现有代理之一来创建类似的代理(没有轨迹解释) .

我的第一种方法是通过分配 的值来使用任何代理gamma=0,但我认为这在数学上是不正确的。

标签: pythonreinforcement-learningstable-baselines

解决方案


推荐阅读