topic-modeling - 如何在 R 中创建一个模型,该模型使用预定义的主题和一组新词上的某些词来确定与主题的相关性
问题描述
我正在尝试构建一个模型,该模型可以确定文本字符串与预定义主题的相关程度,并尝试了几种方法(主要是带有种子词的 LDA,主要是朴素贝叶斯),但无法真正获得所需的结果。
我有一个列表,其中包含“内部”和“外部”两个主题以及与每个主题相关的几个单词
里面 | 外部 |
---|---|
生产 | 客户 |
营销 | 供应商 |
金融 | 银行 |
等等 | 等等 |
我要分析的文本包含在列中,例如:banks_production_clients
此外,我有大约 1115 个文档,每个文档与多个列相关(每个大约 200 个)。
我希望我的模型能够识别这包含两个属于“外部”主题的词和一个属于“内部”主题的词。所以,这使得它类似于 0.67 与外部相关,0.33 与内部相关。最后,我想看看每个文档(包含 200 列)与任一主题的相关程度。
单词的出现差异很大,因此在运行 LDA 时,将频繁出现的单词组合在一起,因为它们也更频繁地同时出现。
解决方案
推荐阅读
- sql - 在 vb.net 中将“字符串”转换为“SQlCommand”
- css - 如何在 SCSS 中扩展变量的映射?
- linux - 有没有办法在 linux 中删除 atom-editor 中的标题栏
- python - 在模型中为 __str__ 编写 djnago 测试
- php - Laravel 状态在代码中没有改变
- reactjs - 使用 thunk 的 React-Redux 异步函数不起作用
- java - IBM MQ 云连接
- sass - 无法在 Gatsby SCSS 中导入 Google 字体
- python - 从字符串列表中删除子字符串
- c - 为什么文本段在这个 ELF 文件中没有可执行权限?