r - R - 在 gsub 之后无法计算词频
问题描述
我是 R 新手,正在分析评论数据集。数据集中有一些标签,我设法找到用 gsub 替换它们的解决方案。
但是在替换它们并想计算词频之后,频繁的词变成了数字。当检查处理过的数据集的 str() 时,它会产生以下结果:
> str(full)
'data.frame': 10000 obs. of 1 variable:
$ reviewContent: Factor w/ 9884 levels "\"ARS?!\" -- me when hearing"| __truncated__,..: 1941 9580 9393 1938 7192 885 3758 7201 2530 7445 ...
列出了我的代码:
text <- subset(full, select = reviewContent)
text <- as.data.frame(lapply(text, function(x) {gsub("\u00A0", " ", x)}))
corpus <- Corpus(VectorSource(text))
corpus <- tm_map(corpus, stripWhitespace)
corpus <- tm_map(corpus, content_transformer(tolower))
corpus <- tm_map(corpus, removeWords, stopwords("english"))
corpus <- tm_map(corpus, stemDocument)
t <- TermDocumentMatrix(corpus)
t <- data.matrix(t)
t <- sort(rowSums(t),decreasing=TRUE)
t <- data.frame(word = names(t),freq=t)
head(t, 10)
and result of term frequency is:
word freq
1084 1084 2
1110 1110 2
113 113 2
1203 1203 2
1255 1255 2
140 140 2
1409 1409 2
1541 1541 2
1593 1593 2
1623 1623 2
如果有人能够解决这个问题,真的很感激。
解决方案
推荐阅读
- java - 如何避免工厂模式中的 Java 泛型警告
- python - FileNotFoundError:[Errno 2] 没有这样的文件或目录:'englishcomputers.yml'
- javascript - 如何在谷歌地图标记中添加点击事件?
- d3.js - aframe vive 控制器未捕获类型错误:hand.getAttribute 不是函数
- c# - 我怎样才能很好地将这个对象转换成特定的格式?
- amazon-web-services - AWS CloudFormation:无法运行 cfn-init
- amazon-web-services - 如何通过 AWS-CLI 删除 Cloudwatch 警报?
- scala - 我们如何比较 spark scala 中的两个数据帧以找出这两个文件之间的差异,哪一列?和价值?
- vb.net - 在文本文件中搜索 ID 名称并更改相应的值
- angular-material - 一旦文本框变脏并且处于焦点位置,如何显示 mat-error?