numbers - 删除R中单词中的反斜杠
问题描述
我一直在尝试为文章做主题建模。我清理了包含大量反斜杠和数字的原始数据。即使在删除标点符号、反斜杠和数字之后,我还是得到了反斜杠以及主题 1 中最重要的数字。我用于预处理的代码片段是
articles <- tm::tm_map(articles, content_transformer(tolower))
# Remove numbers
articles<- tm_map(articles, removeNumbers)
# Remove english common stopwords
articles<- tm_map(articles, removeWords, stopwords("english"))
# Remove punctuations
articles<- tm_map(articles, removePunctuation)
# Eliminate extra white spaces
articles <- tm_map(articles, stripWhitespace)
toSpace <- content_transformer(function(x, pattern) gsub(pattern, " ", x))
articles <- tm_map(articles,toSpace, "\\\\" )
即使在尝试清理数据之后,我也得到了主题中最热门的反斜杠和数字,设计
机器人
类
医疗
设备 wkh\003
学生
dcbl
ri\003
课程
主题中的反斜杠和数字完全不合适。请帮我解决问题
解决方案
您可以使用 stringr 包。例如:
library(tidyverse)
df <- tibble(text = c("robot", "class", "medical", "device wkh\\003", "students", "dcbl", "ri\\003", "course", NA))
df %>%
mutate(text = str_remove_all(text, "\\\\"))
# A tibble: 9 × 1
text
<chr>
1 robot
2 class
3 medical
4 device wkh003
5 students
6 dcbl
7 ri003
8 course
9 NA
推荐阅读
- ruby-on-rails - 如何按列和行合并单元格
- java - restapi 与 feignclient + spring security 5 + 来自自定义提供程序的 oauth2.0
- vb.net - 在第一个第二个第三个等之前获得完整的字符串拆分
- processing - 更改文本字段功能 ControlP5
- sql - 向分组查询添加额外条件会使其变慢
- r - 是否有在 R 中将密度图覆盖在街道地图上的功能?
- javascript - 更改滚动条颜色
- symfony - PHPUnit 测试中存储库的 Symfony 依赖注入或服务位置
- php - CSS 属性为何以及如何停止 PHP Header Location X?
- npm - 使用 npm 链接返回错误“未找到 - GET https://registry.npmjs.org/”