首页 > 解决方案 > 如何用 R 读取数据集

问题描述

我有 3 个 CSV 文件。train.csv - 训练集,test.csv - 测试集和 sampleSubmission.csv - 正确格式的样本提交文件。我是 R 的新手。我不知道如何阅读它 R。这是 Dataset 的驱动器链接

https://drive.google.com/open?id=1YPw-MPlW7g2y19GT1ITy_fHbjrKBNc-M

标签: r

解决方案


关于您的评论,我认为您必须使用额外文件将决策树的结果放在那里。下面给出了一个简短的注释方式。

dTest  <- read.csv("test.csv")  #Read in the datasets
dTrain  <- read.csv("train.csv")
dSub  <- read.csv("sub.csv")

dTrain$y <- as.logical(dTrain$y) #Change type of y to logical

library(rpart)
dtree <- rpart(y ~ . - id, data=dTrain) #Make decission tree

all(dSub$id == dTest$id) #Test of order of dSub$id is equal to dTest$id
#[1] TRUE

dSub$y  <- predict(dtree, newdata=dTest) #make prediction
head(dSub)
#     id          y
#1 38062 0.05454481
#2 40079 0.05454481
#3 39238 0.21288164
#4 36069 0.05454481
#5 40531 0.05454481
#6 38164 0.21288164

推荐阅读