r - RemoveWords 命令不删除一些奇怪的词
问题描述
关键是我试图<U+0001F399><U+FE0F>
从我的文本语料库中删除一些奇怪的词(比如)来做一些推特分析。
有很多这样的词我无法通过使用来删除 <- tm_map(X, removeWords).
我在数据集中有很多推文。然后我使用以下代码:
corpus_tweets <- tm_map (corpus_tweets, removeWords, c("<U+0001F339>", "<U+0001F4CD>"))
如果我尝试将这些奇怪的词更改为也出现在我的数据集上的常规词(例如“生命”或“动物”),那么常规词很容易被删除。
知道如何解决这个问题吗?
解决方案
由于这些是 Unicode 字符,您需要弄清楚如何在 R 中正确输入它们。
R 中 Unicode 的转义码语法可能不是<U+xxxx>
,而是类似\Uxxxx
. 有关详细信息,请参阅手册(我不使用 R - 我对它的不一致感到非常恼火。这甚至是这种不一致的一个示例,显然字符串的打印方式与 R 接受的输入不同。)
推荐阅读
- javascript - 我们如何为输入类型提供多个 id?
- bash - 用于在终端输出中搜索特定单词的 Bash 脚本
- android - 将 Android NDK 添加到项目和`OS无关路径错误`
- visual-studio - Visual Studio 2017 如何将缺少的 dll 添加到 C++ 项目?
- python - 通过用户输入在字典中添加/减去值
- android - 为什么我的 ionicApp 采用 Android 浏览器 4.0 版本
- wordpress - 元素 <> 在点 (,) 处不可点击。其他元素会收到点击:...
- rest - REST:保护公共 GET URL
- android - 每次启动 Activity 时都会调用 OnChildAdded EventListener。即使没有添加新的孩子
- csv - Utilities.parseCsv(csv, ";") 也以逗号分隔