首页 > 解决方案 > LDA 模型中 0.3 的相干值

问题描述

我对在评估 LDA 模型时使用连贯性分数有些困惑。

我在一个数据集上运行了一个 LDA 模型,并获得了从 0.32 到 0.37 的连贯性分数和从 -6.75 到 -6.77 的各种主题的困惑度分数。

我在 gensim 包中使用 LDA 模型,这是我用来计算相干分数的代码。

coherencemodel = CoherenceModel(model=lda_model, texts=texts, dictionary=id2word, 
coherence='c_v')
coherenceScore = coherencemodel.get_coherence()

我一直明白,使用连贯性分数是为了找到 LDA 模型中使用的最佳主题数量。但我也被告知,0.3 的连贯性分数很差。

有人可以解释一下什么是连贯性分数吗?分数 0.3 是否表示模型不好?当我们在不同的 LDA 模型之间进行比较时,哪个是更好的评估方法,perplexity 或 coherence score?

标签: ldatopic-modeling

解决方案


推荐阅读