首页 > 解决方案 > 如何从R中的文本语料库中删除特定单词?提供修改代码

问题描述

假设你有一个语料库,例如

myCorpus <- c("Carles werwa went to sadaf buy trsfr in the supermanket", 
           "Marta needs to werwa sadaf go to Jamaica")

我有一本字典 ( data_int_syllables),其中包含我想从中删除的单词列表mytext

使用library('quanteda'),我尝试了以下方法:

myTokens <- tokens(myCorpus, remove_punct = TRUE, remove_numbers = TRUE)
myTokens <- tokens_select(myTokens, names(data_int_syllables))

问题是,此代码修改myTokens为仅保留在英语词典 ( data_int_syllables) 中找到的标记。相反,我想删除在data_int_syllables.

有谁知道如何调整代码以删除而不是保留单词?

标签: rsentiment-analysisquanteda

解决方案


推荐阅读