首页 > 解决方案 > 如何获得 tf-agents 中所有动作的概率向量?

问题描述

我正在研究多臂强盗问题,使用LinearUCBAgentandLinearThompsonSamplingAgent但它们都返回单个动作进行观察。我需要的是可用于排名的所有动作的概率。

标签: pythontensorflowtensorflow2.0reinforcement-learningtensorflow-agents

解决方案


推荐阅读