首页 > 解决方案 > R中的查找列表

问题描述

晚上好,Overflowers,我有一个有趣的困境需要帮助。(请耐心等待,这很难解释)

我正在做一些文本挖掘,我使用 tm lib 创建、清理了我的语料库、文档术语矩阵等,一切都很好,一切都运行良好(一直到我现在的位置)。这就是我想做的:

  1. 使用我在 data.frame 中最常用的单词或三个单词的“短语”(这些是我们在数据中最常见的单词和短语),我想创建一个查找列表或“字典”,因为缺少更好的术语,基本上会采用其中一个短语,在另一个数据集中查找是否有匹配项,如果有,请给出我在第二个数据集中的值/描述。

示例代码:

dtm <- TermDocumentMatrix(corpus)#the corpus was created from my raw .csv 
#file
m <- as.matrix(dtm)
v <- sort(rowSums(m),decreasing = T)
d <- data.frame(word = names(v),freq=v)
head(d, 20)
wordf <- d[1:20,]
wordf

wordf 从结构的角度来看是这样的:

词 | 频率

密码 | 13788

让我们深入了解数据集 2。数据集 2 有 3 列(下面是一个小示例:

行数 | 词 | 类别

1 | 密码| 请求访问密码重置

(抱歉格式化,对我来说效果不佳)

我想做的就是这个。从 wrdf 列中取出单词,在数据集 2“单词列”中搜索,如果匹配,则拉回类别列中列出的值,然后将所有内容写入新的数据帧。

最终,我希望它能够通过机器学习和训练等自动工作,但现在,在我有足够的数据来实际训练算法之前,它将是手动的。所以溢出者,我希望我能够很好地解释自己,如果没有道歉,我知道你们很多人讨厌这样的笼统问题,没有更多细节,但我希望我能理解我的观点。请提供帮助,并为任何可以提供帮助的人 +10 分。

标签: rdataframelookup

解决方案


推荐阅读