csv - 我正在尝试在 R 编程中使用 5 个单词搜索 100 万行文本的 CSV 文件,并为这些累积分数创建一个列
问题描述
我正在尝试在 R 编程中使用 5 个单词搜索 100 万行文本的 CSV 文件,并为这些累积分数创建一个列。
`enter code here`CNN <- read.csv("CNNNewsDataSet.csv") # Properly import data
`enter code here`View(CNN)
# Load the Data in the variable
#CNN <- read.csv("CNNNewsDataSet.csv", header = T)
`enter code here`str(CNN)
# Show CNN DataSet
`enter code here`View(CNN)
# Load that Vector or text data for just the message column as a
Corpus.
`enter code here`corpus <- iconv(CNN$message)
# Show CNN DataSet
`enter code here`View(corpus)
# kept only those characters I wanted using a range of ASCII codes.
`enter code here`corpus <- gsub('[^\x20-\x7E]', '', corpus)
`enter code here`View(corpus)
# Fill in blank messages with NA
`enter code here`corpus[corpus==""] <- NA
`enter code here`View(corpus)
# Omit blank messages
`enter code here`corpus<-na.omit(corpus)
`enter code here`View(corpus)
#Remove All Punctuation Characters
`enter code here`corpus <- gsub("[[:punct:][:blank:]]+", " ", corpus)
`enter code here`View(corpus)
# Converted all the text into lower case.
`enter code here`corpus<- tolower(corpus)
`enter code here`View(corpus)
# Removed numbers from the text data.
`enter code here`corpus <- tm_map(corpus, removeNumbers)
`enter code here`View(corpus)
键和值
`enter code here`search_for <- data.table(
`enter code here`word=c("Capitol", "Biden", "Congress", "Marines", "Senate", "White
House"),
`enter code here`value=c(-0.5, -0.6, -0.4, -0.2, -0.4, -0.04))
`enter code here`View(value)
`enter code here`search_res <- merge(corpus[, id:=1L], search_for[, id:=1L], by="id",
`enter code here`allow.cartesian=TRUE)[,match:=text %like% word, by=.(text, word,
value)][match==TRUE, .(words=paste(sort(word), collapse=", "),
`enter code here`value=sum(value)), by=text]
`enter code here`search_res <- merge(corpus[, -"id"], search_res, on="text",
all.x=TRUE)
`enter code here`search_res
我在下面收到此错误:
(id,1L)中的错误:=
:检查is.data.table(DT)== TRUE。否则,:= 和:=
(...) 被定义为在 j 中使用,仅一次且以特定方式使用。请参阅帮助(“:=”)。
解决方案
推荐阅读
- sql-server - 按过去 5 年过滤的 SQL 语句
- python - 从各种 PDF 文件中抓取表格
- python-3.x - 将每个新时间附加到列表中
- java - 在 Spring Boot 中,如何在不使用基于表单的登录时配置重定向而不是返回 403 禁止
- python - 访问 prestashop api 网络服务时获取“401 - 未经授权”
- android - 如何通过修改Android R的audio xml配置文件来修改音频输出设备,达到魔改的目的?
- javascript - 无法从 ReactJS 连接到 MQTT 代理
- java - 来自邮递员的发布请求的跨源问题
- android - 有没有办法在 Android 中的设备名称更改时收到通知?
- cmake - 在 cmake-3.16 中找不到定义的 MACRO