首页 > 解决方案 > 我正在尝试在 R 编程中使用 5 个单词搜索 100 万行文本的 CSV 文件,并为这些累积分数创建一个列

问题描述

我正在尝试在 R 编程中使用 5 个单词搜索 100 万行文本的 CSV 文件,并为这些累积分数创建一个列。

`enter code here`CNN <- read.csv("CNNNewsDataSet.csv") # Properly import data


`enter code here`View(CNN)


# Load the Data in the variable 
#CNN <- read.csv("CNNNewsDataSet.csv", header = T)
`enter code here`str(CNN)

# Show CNN DataSet
`enter code here`View(CNN)


# Load that Vector or text data for just the message column as a 
Corpus. 
`enter code here`corpus <- iconv(CNN$message)
# Show CNN DataSet
`enter code here`View(corpus)

# kept only those characters I wanted using a range of ASCII codes.
`enter code here`corpus <- gsub('[^\x20-\x7E]', '', corpus)
`enter code here`View(corpus)

# Fill in blank messages with NA
`enter code here`corpus[corpus==""] <- NA
`enter code here`View(corpus)

# Omit blank messages
`enter code here`corpus<-na.omit(corpus)
`enter code here`View(corpus)


#Remove All Punctuation Characters
`enter code here`corpus <- gsub("[[:punct:][:blank:]]+", " ", corpus)
`enter code here`View(corpus)

# Converted all the text into lower case.
`enter code here`corpus<- tolower(corpus)
`enter code here`View(corpus)

# Removed numbers from the text data.
`enter code here`corpus <- tm_map(corpus, removeNumbers)
`enter code here`View(corpus)

键和值

`enter code here`search_for <- data.table(
`enter code here`word=c("Capitol", "Biden", "Congress", "Marines", "Senate", "White 
House"),
`enter code here`value=c(-0.5, -0.6, -0.4, -0.2, -0.4, -0.04))

`enter code here`View(value)

`enter code here`search_res <- merge(corpus[, id:=1L], search_for[, id:=1L], by="id", 
`enter code here`allow.cartesian=TRUE)[,match:=text %like% word, by=.(text, word, 
value)][match==TRUE, .(words=paste(sort(word), collapse=", "), 
`enter code here`value=sum(value)), by=text]

`enter code here`search_res <- merge(corpus[, -"id"], search_res, on="text", 
all.x=TRUE)
`enter code here`search_res

我在下面收到此错误: (id,1L)中的错误:=:检查is.data.table(DT)== TRUE。否则,:= 和:=(...) 被定义为在 j 中使用,仅一次且以特定方式使用。请参阅帮助(“:=”)。

标签: csvsearch

解决方案


推荐阅读