tensorflow - 在初始训练期间预测相同动作的强化学习参与者
问题描述
我有一个带有 lstm 的强化学习 Actor Critic 模型。在初始训练期间,它为所有状态提供相同的动作值。
AI / RL专家可以帮忙告诉我这是否是训练期间的正常行为吗?如果我的 state_dimension = 50 和 action_dimension = 3,你也可以帮我知道 lstm 和线性层的理想大小应该是多少。
提前致谢
解决方案
这可能是由许多原因引起的:
1 - 检查权重初始化
2 - 检查模型进行推理的接口,如果没有其他因素阻止它做出除了激活该特定神经元之外的动作选择
3 - 检查您的奖励功能。避免太大的负面奖励。此外,如果采取相同的行动并不是避免负面奖励的明显方法。
推荐阅读
- java - getAttributeValue 返回 null java
- c# - 组合函数会使应用程序崩溃,没有任何异常
- javascript - 在打字稿的另一个类中使用静态类方法
- java - 如何将 Spring 服务注入到非组件父类中
- c++ - esp32_cam 读取和处理图像
- c++ - 如何为 armv7l 架构构建 Qt 项目?
- html - 在 html 中从用户那里获取输入并转换为 python 列表
- python - 如何在python中按索引获取2个列表的总和?
- sql - 如何使 SQL 自动将表中的某些行复制到同一数据库中的另一个表?
- c# - 为不同的accesstoken实现多个AuthenticationHandler