首页 > 解决方案 > 强化学习:处理不可量化的反馈系统

问题描述

我正在尝试编写一个强化学习算法,为简单起见,它将通过接受 n 个输入来预测我正在考虑的数字[它们是什么并不重要]。所以当算法预测一个数字时,我会回答它说“非常接近”“接近”“精确”“远”“太远”

现在我看到的所有教程都有一个可量化的结果,他们通常会做一个均方误差来查看预测中有多少误差。但这里的反馈是无法量化的

我该如何解决这个问题?仅供参考,我对 ML 很陌生,它没有必要成为强化学习。我也尝试过神经网络方法,但即使这样也有类似的问题

标签: machine-learningreinforcement-learning

解决方案


如果您使用简单的线性回归来解决此问题,您将根据先前的示例训练模型。输入和每个n输入的实际答案将用于创建一个最接近满足所有示例数据的线性方程。当要求预测时,n输入通过这个方程输入,这个结果将是预测。

通过强化学习,代理会根据在一组状态下采取某些行动而在环境中体验到的“奖励”进行训练。这些奖励必须是可量化的。要使用 RL 方法,您需要量化您的响应集。我想“精确”会有一个很大的积极奖励,“接近”有一个小的积极奖励,“远”有一个与之相关的负面奖励。您必须以某种方式量化您的反馈,否则 RL 代理将无法“学习”。

您仍然可以使用 RMSE 作为衡量策略准确性的指标,方法是测量预测数字与结果应有的差异。您应该可以访问实际结果,否则如何知道预测是准确的、接近的还是遥远的?


推荐阅读