r - 如何从R中的文本语料库中删除特定单词?提供修改代码
问题描述
假设你有一个语料库,例如
myCorpus <- c("Carles werwa went to sadaf buy trsfr in the supermanket",
"Marta needs to werwa sadaf go to Jamaica")
我有一本字典 ( data_int_syllables
),其中包含我想从中删除的单词列表mytext
。
使用library('quanteda')
,我尝试了以下方法:
myTokens <- tokens(myCorpus, remove_punct = TRUE, remove_numbers = TRUE)
myTokens <- tokens_select(myTokens, names(data_int_syllables))
问题是,此代码修改myTokens
为仅保留在英语词典 ( data_int_syllables
) 中找到的标记。相反,我想删除在data_int_syllables
.
有谁知道如何调整代码以删除而不是保留单词?
解决方案
推荐阅读
- python - 权重应该与 x 具有相同的形状
- javascript - java.time.对 JavaScript 日期的即时响应
- amazon-s3 - 如何在 Amazon EMR 上查看执行程序的输出?
- javascript - 如何在加载页面之前运行 jQuery 或者如何回调“getJson(function(data))”?
- python - 如何在全球范围内使用 python 和 docker?
- r-package - 无法加载共享对象“C:/Program Files/R/R-4.0.5/library/stats/libs/x64/stats.dll”
- jquery - onClick 功能在选中的单选按钮上不起作用
- google-cloud-platform - GCP API 网关的静态 IP
- python - 安装 Pysal:错误:无法卸载“llvmlite”。这是一个 distutils 安装的项目
- android - 如何保存 rss feed sqlite 数据 android?