首页 > 解决方案 > 如何在 R 中创建一个模型,该模型使用预定义的主题和一组新词上的某些词来确定与主题的相关性

问题描述

我正在尝试构建一个模型,该模型可以确定文本字符串与预定义主题的相关程度,并尝试了几种方法(主要是带有种子词的 LDA,主要是朴素贝叶斯),但无法真正获得所需的结果。

我有一个列表,其中包含“内部”和“外部”两个主题以及与每个主题相关的几个单词

里面 外部
生产 客户
营销 供应商
金融 银行
等等 等等

我要分析的文本包含在列中,例如:banks_production_clients

此外,我有大约 1115 个文档,每个文档与多个列相关(每个大约 200 个)。

我希望我的模型能够识别这包含两个属于“外部”主题的词和一个属于“内部”主题的词。所以,这使得它类似于 0.67 与外部相关,0.33 与内部相关。最后,我想看看每个文档(包含 200 列)与任一主题的相关程度。

单词的出现差异很大,因此在运行 LDA 时,将频繁出现的单词组合在一起,因为它们也更频繁地同时出现。

标签: topic-modelingtopicmodels

解决方案


推荐阅读