python - 如何获得 tf-agents 中所有动作的概率向量?
问题描述
我正在研究多臂强盗问题,使用LinearUCBAgent
andLinearThompsonSamplingAgent
但它们都返回单个动作进行观察。我需要的是可用于排名的所有动作的概率。
解决方案
推荐阅读
- python-2.7 - 通过 GKE POD 中的 Cron 执行时,无法使用 Python SDK 将消息发布到 GCP Pub/Sub
- python - 是否可以在 Python 2.7 中导入 soundfie?
- python - 这 2 是从哪里输出的?使用 python 列表的斐波那契数列
- c# - 如何在 uwp 项目中隐藏最小化和最大化但保持关闭按钮?
- ios - 如何验证 iOS 耗材应用内购买?
- java - 从 Java 中的 SQLite 数据库中检索特定数据
- c# - 自定义模型绑定器在 Web api 中返回空对象
- c# - 字符串格式问题 - 添加两个小数点
- hive - 蜂巢查询不返回任何数据
- datadog - DataDog 顶部列表中的唯一标签计数