r - 当我的测试集包含我的火车数据没有的数据时出现错误?
问题描述
我有一个数据集并将其分成训练(80%)和测试(20%)集。第一步是建立决策树,然后我使用我的测试集进行预测。
tree <- rpart(train$number ~ ., train, method = "class")
pred <- predict(tree,test, type ="class")
运行此程序后,我收到一个错误:
model.frame.default 中的错误(条款,newdata,na.action = na.action,xlev = attr(object,:Faktor 'orderland' hat neue Stufen Zypern
这基本上意味着,我的测试集中有土地“Zypern”,但在我的火车集中没有。为了解决这个问题,我用谷歌搜索并通过将因子水平设置为相等来尝试这一点。
train$orderland <- factor(train$orderland, levels=levels(test$orderland))
测试和训练数据总结:
> summary(train)
number orderland lenkung transmission IntervalRange
Length:54616 NA's:54616 Length:54616 Length:54616 1: 7893
Class :character Class :character Class :character 2:39528
Mode :character Mode :character Mode :character 3: 7195
> summary(test)
number orderland lenkung transmission IntervalRange
Length:13655 Length:13655 Length:13655 Length:13655 1:1959
Class :character Class :character Class :character Class :character 2:9904
Mode :character Mode :character Mode :character Mode :character 3:1792
但我得到同样的错误......任何想法为什么?
解决方案
我认为您需要强制训练和测试集包含来自分类变量的所有可能值。我不确定您的数据集是如何构造的,但假设lenkung
是您的土地变量。
一种方法是:
train_test = function(x,train_per=0.7){
smp_size = floor(train_per*nrow(x))
train_ind = sample(seq_len(nrow(x)),size = smp_size)
re = list()
re$train = x[train_ind,]
re$test = x[-train_ind,]
return(re)
}
splitted_data = split(data,data$lekung)
new_list = lapply(splitted_data,train_test)
在这里,我们定义了一个将数据帧 (x) 拆分为训练集和测试集的函数。我们还使用该split()
功能将您的原始数据拆分为多个数据帧,其中每个数据帧仅包含 lekung 的可能值之一。假设这些值可以是“A”、“B”或“C”。在这种情况下,splitted_data
将是一个包含 3 个数据框的列表,第一个包含 lekung = "A" 的所有观察结果,第二个包含 lekung = "B" 的所有观察结果等...
然后,我们应用到splitted_data
我们上面定义的函数。现在new_list
为每个可能的 lekung 值包含 2 个数据帧,一个火车和一个测试。
所以最后我们只需要将每个训练数据帧的行绑定在一起,并对测试数据帧做同样的事情。
train = new_list[[1]][[1]]
test = new_list[[1]][[2]]
for(i in 2:length(a)){ # Then we use this loop to bind the data together
train = rbind(train,new_list[[i]][[1]])
test = rbind(test,new_list[[i]][[2]])
}
new_list
是 2 个数据框的列表。所以我们使用new_list[[1]]
访问 lekung 的第一个值对应的 2 个数据帧,并
new_list[[1]][[1]]
访问那里的第一个数据帧。
不过,可能有更好的方法来做到这一点。
推荐阅读
- java - 使用 Java 将 Oracle Blob 内容插入另一条记录时出现问题
- javascript - 是否可以更改语义-ui-dropdown 上的“添加”文本?
- angular - ng-bootstrap popover 增加页面宽度
- c++ - c++ 使用 c 样式数组聚合初始化
- javascript - 将 npm 包与 webpack 捆绑,但排除所有供应商包
- json - 如何在 Postman 中将 JSON Schema 设置为全局变量?
- r - 如何将方形图例转换为 sf 中的点图例
- excel - 匹配工作表和隐藏行之间的范围并将数据粘贴到另一个工作表的最后一行
- google-sheets - Google Sheet 有计算时间限制吗?
- macos - 需要在 Mac OSX 上重新编译或重新建立 MPI。如何?