首页 > 解决方案 > RemoveWords 命令不删除一些奇怪的词

问题描述

关键是我试图<U+0001F399><U+FE0F>从我的文本语料库中删除一些奇怪的词(比如)来做一些推特分析。

有很多这样的词我无法通过使用来删除 <- tm_map(X, removeWords).

我在数据集中有很多推文。然后我使用以下代码:

corpus_tweets <- tm_map (corpus_tweets, removeWords, c("<U+0001F339>", "<U+0001F4CD>")) 如果我尝试将这些奇怪的词更改为也出现在我的数据集上的常规词(例如“生命”或“动物”),那么常规词很容易被删除。

知道如何解决这个问题吗?

标签: rtexttwittersentiment-analysisword

解决方案


由于这些是 Unicode 字符,您需要弄清楚如何在 R 中正确输入它们。

R 中 Unicode 的转义码语法可能不是<U+xxxx>,而是类似\Uxxxx. 有关详细信息,请参阅手册(我不使用 R - 我对它的不一致感到非常恼火。这甚至是这种不一致的一个示例,显然字符串的打印方式与 R 接受的输入不同。)


推荐阅读