首页 > 解决方案 > 我对预测随机森林中的新数据有一些疑问

问题描述

我有一些问题,当对 X_train、y_train、X_test、y_test 使用随机森林时。

训练数据时,我这样使用:

rf_train <- randomForest(y = y_train, x = X_train, ntree = 1000)

但是,我有一个问题。哪一个对预测新数据是正确的。:

1.

随机森林(y = y_test,x = X_test,ntree = 1000)

2.

预测(rf_train,X_test)

请告诉我哪一个是正确的。

标签: rrandom-forest

解决方案


在这种情况下,您可以结合使用函数签名以及您的直觉(和文档)来回答您自己的问题。predict您应该使用该函数将随机森林模型应用于新的测试数据。正如你所说的那样,predict将模型输出作为第一个参数randomForest。第二个参数是包含测试数据的数据框或矩阵,每个测试用例一行。正如文档所述,至少在使用回归构建的随机森林模型的情况下,输出是一个响应向量,每个测试用例/测试用例的输入矩阵/数据框的行的一个响应。


推荐阅读