r - 有没有办法从 r 的语料库中删除前导空格?
问题描述
删除停用词后,我发现许多条目的开头都有空格。是否可以从 VCorpus 中删除前导空格?
非常感谢您提前
编辑:
corpus<-VCorpus(VectorSource(frasi))
stopwords<-scan("~stopwords.txt", character(), quote = "")
corpus <- tm_map(corpus, content_transformer(tolower))
corpus <- tm_map(corpus, removeWords, stopwords)
corpus <- tm_map(corpus, removePunctuation)
corpus <- tm_map(corpus, content_transformer(gsub), pattern = "/", replacement = " ")
corpus <- tm_map(corpus, stripWhitespace)
corpus[[1]]$content
class(corpus)
"VCorpus" "Corpus"
应用 trimw(corpus) 时,语料库变为“大字符”。这就是我所做的,如果问题不够清楚,我很抱歉。
解决方案
您是否尝试过将 lapply 与 trimws 结合使用?
corpus2<-lapply(corpus, trimws)
但是,这适用于前导空格和结尾空格
编辑
如果您希望它作为 VCorpus 对象返回,您可以使用 as.VCorpus 函数,如下所示:
corpus2<-as.VCorpus(lapply(corpus, trimws))
推荐阅读
- java - 编译代码时在java中的Pair类中获取两个注释
- java - 使用java计算文件中的项目数
- javascript - 只有在堆栈清除并且时钟滴答声过去后,才会对已“确定”的承诺执行操作
- azure - Azure docker 容器给出“未经授权的容器使用”
- javascript - 使用 javascript 从网站获取文本
- python - 在 tf.keras 中使用 softmax 作为顺序层和使用 softmax 作为密集层的激活函数有什么区别?
- gem5 - 我可以在 gem5 中更精细地调试吗?
- python - 在 google colab 中使用 datagen.flow_from_directory 并没有提高训练和验证的准确性
- android - Flutter:为 ImagePicker 使用 Listview.builder
- angular - 如何将 ionic 中的 ccavenue 支付网关与 Angular 集成