首页 > 解决方案 > 有没有办法从 r 的语料库中删除前导空格?

问题描述

删除停用词后,我发现许多条目的开头都有空格。是否可以从 VCorpus 中删除前导空格?

非常感谢您提前

编辑:

corpus<-VCorpus(VectorSource(frasi))

stopwords<-scan("~stopwords.txt", character(), quote = "")

corpus <- tm_map(corpus, content_transformer(tolower))
corpus <- tm_map(corpus, removeWords, stopwords)
corpus <- tm_map(corpus, removePunctuation)
corpus <- tm_map(corpus, content_transformer(gsub), pattern = "/", replacement = " ")

corpus <- tm_map(corpus, stripWhitespace)
corpus[[1]]$content
class(corpus)
"VCorpus" "Corpus"

应用 trimw(corpus) 时,语料库变为“大字符”。这就是我所做的,如果问题不够清楚,我很抱歉。

标签: r

解决方案


您是否尝试过将 lapply 与 trimws 结合使用?

corpus2<-lapply(corpus, trimws)

但是,这适用于前导空格和结尾空格

编辑

如果您希望它作为 VCorpus 对象返回,您可以使用 as.VCorpus 函数,如下所示:

corpus2<-as.VCorpus(lapply(corpus, trimws))


推荐阅读