r - 从语料库中删除特殊字符
问题描述
我建立了一个数据,显示所有带有标点符号的术语及其频率。然后我应该从它们中删除标点符号并检查是否还有任何标点符号。
newpapers1 <- tm_map(newpapers, removePunctuation)
punremove <- function(x){gsub(c('¡'|'¯'),"",x)}
punremove1 <- lapply(newpapers1, punremove)
my.check.func <- function(x){str_extract_all(x, "[[:punct:]]")}
my.check1 <- lapply(newpapers1, my.check.func)
p <- as.data.frame(table(unlist(my.check1)))
p
但我最终还是得到了这个特殊字符:
Var1 Freq
1 ¡ 25
有没有办法编写一个函数来删除所有标点符号或一个函数来删除它?
编辑:检查文件后,标点符号仍然存在:
> newpapers1[[24]]$content
“这项研究采用跨文化视角来检验当地观众如何看待和欣赏外国戏剧,以及这种心理过程如何因媒体和观众之间的文化距离而不同折扣理论表明,文化距离会降低韩国观众对戏剧角色的认同感,从而削弱他们对外国剧的欣赏感这些发现的实际意义及其潜在局限性"
解决方案
您可以使用gsub
删除标点符号,像这样。
newpapers1 <- tm_map(newpapers, removePunctuation)
my.check.func <- function(x){gsub('[[:punct:]]+','',x)}
my.check1 <- lapply(newpapers1, my.check.func)
p <- as.data.frame(table(unlist(my.check1)))
p
希望这可以帮助。
推荐阅读
- highcharts - 条形图高度错误
- linkedin - Linkedin API - Picture-urls::original - 禁止 403 错误
- node.js - 为 NPM 注册表创建代理服务器
- docker - 如何通过命令行为 Docker for Mac 配置交换空间?
- javascript - ionic html5 选择/键盘打开,向上滚动视图和选项卡并在 iOS 上的选项卡后创建空白空间
- python - Python:将对象插入 .xlsx 文件
- r - 如何从本地文件夹安装 R 包,而依赖项安装仍在同一文件夹中?
- ios - 如何在 iOS 中为 React Native 应用程序禁用系统的粗体文本可访问性设置?
- python - 将 %m-%d 转换为 dayofyear 格式
- c# - MVC 没有路由到我的控制器的操作结果之一?