r - 从 R 中的术语文档矩阵中删除出现最多和最少的术语
问题描述
我正在阅读一个韩文文本文件并尝试从 R 中生成的术语文档矩阵中删除出现次数最多的术语(停用词)和出现次数最少的术语。从下面的代码中,我可以获得 TDM,但它具有文档中所有术语的权重。有什么方法可以删除这些条款,以便获得 TDM 中更有意义的条款?谢谢
library(ktm)
old <- read_csv(file = "Past-Korean1.csv", locale = locale(date_names = "ko",
encoding = "UTF-8"))
q <- tokenizer(old$Description, token = "tag")
y_ko <- document_term_frequencies(q[, c("text_id", "word")])
tdm_ko <- document_term_matrix(y_ko)
tdm_ko <- as.DocumentTermMatrix(tdm_ko, weighting=weightTfIdf)
train1_ko <- as.matrix(tdm_ko)
解决方案
推荐阅读
- javascript - 数据表编辑器无法自动确定来自源的字段
- swiftui - SwiftUI 从视图中传递参数
- jenkins - 如何通过 ssh 进入 Jenkinsfile 中的服务器
- javascript - 使用 request.getParam 获取按钮的 id
- limit - 如何知道qqPlot置信限?
- ckeditor - 如何在 ckeditor5 小部件中为输入制作可编辑标签?
- algorithm - 这个排序对吗?或者它是否缺少任何东西
- vb.net - 如何使用 VB.NET 反序列化 5-6 级标签
- c# - Testing service layer with repository pattern with xUnit, Moq in .NET Core
- python - PyTorch 中的 MultiLabel 软边距损失