首页 > 解决方案 > R - 在 gsub 之后无法计算词频

问题描述

我是 R 新手,正在分析评论数据集。数据集中有一些标签,我设法找到用 gsub 替换它们的解决方案。

但是在替换它们并想计算词频之后,频繁的词变成了数字。当检查处理过的数据集的 str() 时,它会产生以下结果:

> str(full)
'data.frame':   10000 obs. of  1 variable:
 $ reviewContent: Factor w/ 9884 levels "\"ARS?!\" -- me when hearing"| __truncated__,..: 1941 9580 9393 1938 7192 885 3758 7201 2530 7445 ...

列出了我的代码:

text <- subset(full, select = reviewContent) 
text <- as.data.frame(lapply(text, function(x) {gsub("\u00A0", " ", x)}))
corpus <- Corpus(VectorSource(text))
corpus <- tm_map(corpus, stripWhitespace)
corpus <- tm_map(corpus, content_transformer(tolower))
corpus <- tm_map(corpus, removeWords, stopwords("english"))
corpus <- tm_map(corpus, stemDocument)
     t <- TermDocumentMatrix(corpus)
     t <- data.matrix(t)
     t <- sort(rowSums(t),decreasing=TRUE)
     t <- data.frame(word = names(t),freq=t)
     head(t, 10)

     and result of term frequency is:
      word freq
  1084 1084    2
  1110 1110    2
  113   113    2
  1203 1203    2
  1255 1255    2
  140   140    2
  1409 1409    2
  1541 1541    2
  1593 1593    2
  1623 1623    2

如果有人能够解决这个问题,真的很感激。

标签: rgsub

解决方案


推荐阅读