首页 > 解决方案 > 我如何在演员评论代理中剪辑连续动作?

问题描述

假设我们有一个机器人,它有一些钱和一些股份。输入是过去 30 天的价格列表。它不使用 RNN,价格是同时输入的。输出是一个连续动作,其中正数是买入,负数是卖出股票数量。我怎样才能限制行动空间,以便它被夹在它有多少份额(下限)和它有多少钱(上限)之间?

我应该剪掉它还是只惩罚非法行为?哪个选项会产生最好的结果?

标签: artificial-intelligencereinforcement-learning

解决方案


你可以惩罚非法行为,但根据我的经验,它并没有显示出对 AI 有很好的影响(还有一件事要担心)。只需裁剪输出,这样如果它试图使用更多可用的钱,它就会花掉所有的钱。如果它试图卖出比它拥有的更多的股票,它就会卖出它所有的股票。网络将很快了解当它尝试使用比它拥有的更多资源时会发生什么,因此不会导致性能下降。


推荐阅读