首页 > 解决方案 > as.H2O 无法确定文件类型错误

问题描述

您好,我正在尝试将一些 twitter 数据放入 R 中的 h2o 随机森林模型中。我不断收到无法确定文件类型错误。我在使用 Rstudio 的 R 版本 1.1.453 中。

代码:

library(dplyr)
library(tidyr)
library(ace)
library(h2o)
library(data.table)

hdfs.kinit()
h2oStart()

tweet.dt <- as.data.table(fread(file = "/tech/home/js87549e/ExtractedTweets.csv", col.names = c('Party','Handle','Tweet')))
tweet.dt$outcome <- 0
tweet.dt$outcome[tweet.dt$Party == "Democrat"] <- 1
tweet.dt$outcome <- as.factor(tweet.dt$outcome)
tweet.dt$Tweet <- as.character(tweet.dt$Tweet)

inp.dt <- as.data.table(tweet.dt %>%
  mutate(string = strsplit(Tweet, split = " ")) %>%
  unnest(string))

inp.dt$string <- as.factor(inp.dt$string)

dat.dt <- as.data.table(inp.dt[,c(4,5)])

inp.hex <- as.h2o(dat.dt)

资料:https ://www.kaggle.com/kapastor/democratvsrepublicantweets/downloads/democratvsrepublicantweets.zip/4

错误信息:

无法确定文件类型。对于 /tech/appl/user/js87549e/tmp/RtmpdvNc9d/file2cef348f3bde4.csv_sid_9333_9

标签: rhdfsh2o

解决方案


推荐阅读