首页 > 解决方案 > 从 GitHub 读取数据并将行拆分为 R 中的几行

问题描述

我在 GitHub 上存储了这个文本文件:

https://github.com/lopezbec/COVID19_Tweets_Dataset/blob/master/Coronavirus%20Tweets_ID/coronavirus_2020_01_22.txt

它包含一个独特的大行,其中的值保存为列表(值分隔为["123", "1234", ...])。

我想拆分值并将每个值写在一行上。

我试图弄清楚这一点,但我的代码似乎不起作用。

my_data <- scan (file=input, what = character())
row <- strsplit(my_data, ",")

标签: r

解决方案


这可能接近您想要的。

请注意,您可以直接从 raw.github 内容下载到data.frameusing 中readr::read_tsv()。这里的关键是给标题一个列名(我选择了x)。然后,我们像您的目标一样拆分它(使用,而不是 just )并为(通知转义),进行一些清理。[]

df <- readr::read_tsv("https://raw.githubusercontent.com/lopezbec/COVID19_Tweets_Dataset/master/Coronavirus%20Tweets_ID/coronavirus_2020_01_22.txt", col_names = "x")

vec <- unlist(strsplit(df$x, ", "))
head(vec)
tail(vec)
vec <- gsub(x = vec, pattern = "\\[|\\]", replacement = "") 

# optional
vec <- as.numeric(vec)
write.table(vec, "filename.txt")

推荐阅读