首页 > 解决方案 > 尽管测试集的预测很低,但可以使用 R 中的 randomForest 来确定变量重要性吗?

问题描述

我在 R 中使用 randomForest,我有一个 R^2 为 0.94 的训练模型,但是,测试数据的预测能力非常低。我想知道我是否仍然可以仅使用此训练模型来确定哪个变量对输出预测更重要/更有效。

谢谢

标签: rrandom-foresttraining-data

解决方案


根据您提供的少量信息,这个问题很难回答(考虑提供更多细节和背景)。错误的算法调整可能导致低预测质量,或者它可能是数据固有的,即您的预测器本身与结果的相关性不是很强。在第一种情况下,使用不同的参数,预测可能会更好,例如更多或更少的树,mtry 的不同值等。如果是这种情况,那么您的重要性度量与您的预测一样有偏差(并且应该与警告)。如果预测变量本身很弱,这意味着您的低质量预测已经达到了最好的水平。在这种情况下,我会说可以使用重要性度量,但它们只会告诉您哪些整体弱预测变量或多或少较弱。


推荐阅读