首页 > 解决方案 > 从 R 中的术语文档矩阵中删除出现最多和最少的术语

问题描述

我正在阅读一个韩文文本文件并尝试从 R 中生成的术语文档矩阵中删除出现次数最多的术语(停用词)和出现次数最少的术语。从下面的代码中,我可以获得 TDM,但它具有文档中所有术语的权重。有什么方法可以删除这些条款,以便获得 TDM 中更有意义的条款?谢谢

library(ktm)
old <- read_csv(file = "Past-Korean1.csv", locale = locale(date_names = "ko", 
encoding = "UTF-8")) 
q <- tokenizer(old$Description, token = "tag")
y_ko <- document_term_frequencies(q[, c("text_id", "word")])
tdm_ko <- document_term_matrix(y_ko)
tdm_ko <- as.DocumentTermMatrix(tdm_ko, weighting=weightTfIdf)
train1_ko <- as.matrix(tdm_ko)

标签: rnlpterm-document-matrix

解决方案


推荐阅读