tensorflow - 在初始训练期间预测相同动作的强化学习参与者

我有一个带有 lstm 的强化学习 Actor Critic 模型。在初始训练期间，它为所有状态提供相同的动作值。

AI / RL专家可以帮忙告诉我这是否是训练期间的正常行为吗？如果我的 state_dimension = 50 和 action_dimension = 3，你也可以帮我知道 lstm 和线性层的理想大小应该是多少。

提前致谢

标签： tensorflowpytorchartificial-intelligenceactorreinforcement-learning

这可能是由许多原因引起的：

1 - 检查权重初始化

2 - 检查模型进行推理的接口，如果没有其他因素阻止它做出除了激活该特定神经元之外的动作选择

3 - 检查您的奖励功能。避免太大的负面奖励。此外，如果采取相同的行动并不是避免负面奖励的明显方法。