r - R中的查找列表
问题描述
晚上好,Overflowers,我有一个有趣的困境需要帮助。(请耐心等待,这很难解释)
我正在做一些文本挖掘,我使用 tm lib 创建、清理了我的语料库、文档术语矩阵等,一切都很好,一切都运行良好(一直到我现在的位置)。这就是我想做的:
- 使用我在 data.frame 中最常用的单词或三个单词的“短语”(这些是我们在数据中最常见的单词和短语),我想创建一个查找列表或“字典”,因为缺少更好的术语,基本上会采用其中一个短语,在另一个数据集中查找是否有匹配项,如果有,请给出我在第二个数据集中的值/描述。
示例代码:
dtm <- TermDocumentMatrix(corpus)#the corpus was created from my raw .csv
#file
m <- as.matrix(dtm)
v <- sort(rowSums(m),decreasing = T)
d <- data.frame(word = names(v),freq=v)
head(d, 20)
wordf <- d[1:20,]
wordf
wordf 从结构的角度来看是这样的:
词 | 频率
密码 | 13788
让我们深入了解数据集 2。数据集 2 有 3 列(下面是一个小示例:
行数 | 词 | 类别
1 | 密码| 请求访问密码重置
(抱歉格式化,对我来说效果不佳)
我想做的就是这个。从 wrdf 列中取出单词,在数据集 2“单词列”中搜索,如果匹配,则拉回类别列中列出的值,然后将所有内容写入新的数据帧。
最终,我希望它能够通过机器学习和训练等自动工作,但现在,在我有足够的数据来实际训练算法之前,它将是手动的。所以溢出者,我希望我能够很好地解释自己,如果没有道歉,我知道你们很多人讨厌这样的笼统问题,没有更多细节,但我希望我能理解我的观点。请提供帮助,并为任何可以提供帮助的人 +10 分。
解决方案
推荐阅读
- macos - 在Mac终端上将许多文件从一个目录复制到另一个目录时,可以自动附加数值增加的文件名吗?
- go - robotsgo for windows 10 - 致命错误:zlib.h:没有这样的文件或目录
- spring-boot - 如何使用最新的 SpringBoot 和 ActiveMQ 经典将消息放回队列
- c# - 不断收到“CryptographicException:填充无效且无法删除。” 即使有填充,AES CBC 加密也会出错
- java - 在ACM库java中制作HP bar的好方法是什么
- c# - 如何仅将 Json 文件的一部分反序列化为类 c#
- javascript - 如何使用动态值更改引导切换?
- jspdf - jspdf脚本的问题
- excel - 如何将数据复制到连续的每个其他单元格中?
- java - 为什么 gtime 命令为没有多线程的 java 程序返回 CPU 使用率 > 100%?