artificial-intelligence - 我如何在演员评论代理中剪辑连续动作?
问题描述
假设我们有一个机器人,它有一些钱和一些股份。输入是过去 30 天的价格列表。它不使用 RNN,价格是同时输入的。输出是一个连续动作,其中正数是买入,负数是卖出股票数量。我怎样才能限制行动空间,以便它被夹在它有多少份额(下限)和它有多少钱(上限)之间?
我应该剪掉它还是只惩罚非法行为?哪个选项会产生最好的结果?
解决方案
你可以惩罚非法行为,但根据我的经验,它并没有显示出对 AI 有很好的影响(还有一件事要担心)。只需裁剪输出,这样如果它试图使用更多可用的钱,它就会花掉所有的钱。如果它试图卖出比它拥有的更多的股票,它就会卖出它所有的股票。网络将很快了解当它尝试使用比它拥有的更多资源时会发生什么,因此不会导致性能下降。
推荐阅读
- excel - 使用数据库的用户表单创建序列号系列
- javascript - How to make checkbox change specific object property to false
- c - 在 C 中发送带有附件的电子邮件
- reactjs - Firestore - 功能在开发模式下工作,但在生产模式下不起作用
- php - php 如何执行 imap_search 然后只对结果进行排序
- python - 如何知道作为模块一部分包含的功能?
- javascript - AutoWidth 使元素消失?- 包括示例和文档
- javascript - 在 VS Code 控制台中调试 JavaScript
- javascript - 如何调整 OWL Carousel 鼠标滚轮的速度?
- amazon-s3 - 如何让 Route53 路由到 S3 存储桶