首页 > 解决方案 > 当我的测试集包含我的火车数据没有的数据时出现错误?

问题描述

我有一个数据集并将其分成训练(80%)和测试(20%)集。第一步是建立决策树,然后我使用我的测试集进行预测。

tree <- rpart(train$number ~ ., train, method = "class")
pred <- predict(tree,test, type ="class")

运行此程序后,我收到一个错误

model.frame.default 中的错误(条款,newdata,na.action = na.action,xlev = attr(object,:Faktor 'orderland' hat neue Stufen Zypern

这基本上意味着,我的测试集中有土地“Zypern”,但在我的火车集中没有。为了解决这个问题,我用谷歌搜索并通过将因子水平设置为相等来尝试这一点。

train$orderland <- factor(train$orderland, levels=levels(test$orderland))

测试和训练数据总结:

> summary(train)
 number             orderland      lenkung          transmission IntervalRange
 Length:54616       NA's:54616   Length:54616       Length:54616       1: 7893      
 Class :character                Class :character   Class :character   2:39528      
 Mode  :character                Mode  :character   Mode  :character   3: 7195 

> summary(test)
 number              orderland           lenkung          transmission IntervalRange
 Length:13655       Length:13655       Length:13655       Length:13655       1:1959       
 Class :character   Class :character   Class :character   Class :character   2:9904       
 Mode  :character   Mode  :character   Mode  :character   Mode  :character   3:1792

但我得到同样的错误......任何想法为什么?

标签: rclassificationdecision-treetraining-datalevels

解决方案


我认为您需要强制训练和测试集包含来自分类变量的所有可能值。我不确定您的数据集是如何构造的,但假设lenkung是您的土地变量。

一种方法是:

train_test = function(x,train_per=0.7){
  smp_size = floor(train_per*nrow(x))

  train_ind = sample(seq_len(nrow(x)),size = smp_size)

  re = list()
  re$train = x[train_ind,]
  re$test = x[-train_ind,]
  return(re)
}
splitted_data = split(data,data$lekung)
new_list = lapply(splitted_data,train_test) 

在这里,我们定义了一个将数据帧 (x) 拆分为训练集和测试集的函数。我们还使用该split()功能将您的原始数据拆分为多个数据帧,其中每个数据帧仅包含 lekung 的可能值之一。假设这些值可以是“A”、“B”或“C”。在这种情况下,splitted_data将是一个包含 3 个数据框的列表,第一个包含 lekung = "A" 的所有观察结果,第二个包含 lekung = "B" 的所有观察结果等...

然后,我们应用到splitted_data我们上面定义的函数。现在new_list为每个可能的 lekung 值包含 2 个数据帧,一个火车和一个测试。

所以最后我们只需要将每个训练数据帧的行绑定在一起,并对测试数据帧做同样的事情。

train = new_list[[1]][[1]]
test = new_list[[1]][[2]]
for(i in 2:length(a)){  # Then we use this loop to bind the data together
  train = rbind(train,new_list[[i]][[1]])
  test = rbind(test,new_list[[i]][[2]])
}

new_list是 2 个数据框的列表。所以我们使用new_list[[1]]访问 lekung 的第一个值对应的 2 个数据帧,并 new_list[[1]][[1]]访问那里的第一个数据帧。

不过,可能有更好的方法来做到这一点。


推荐阅读