首页 > 解决方案 > 主题连贯性(gensim CoherenceModel)是否也仅根据我的语料库或外部数据计算?

问题描述

我正在使用 LDA 对 20 世纪英语对应的语料库进行主题建模,并且我一直在使用主题连贯性(以及轮廓分数)来评估我的主题。CoherenceModel我使用具有连贯性的gensim ,c_v我得到的最高0.35分数是我测试过的所有模型中的一个分数,即使是在定性评估中对我最有意义的主题中,即使经过广泛的预处理和超参数比较也是如此。

所以我基本上接受这是我能得到的最好的,但为了写它,我现在一直在阅读主题连贯性,我已经理解它是一个管道,它模拟了人类的判断。但是,我看不到一件事来找到明确的信息:它是完全基于对我的语料库进行的计算,还是也基于一些外部数据?就像在可能与我的域无关的外部语料库上受过训练?我应该u_mass改用吗?

标签: data-sciencetopic-modeling

解决方案


是的,除了u_mass,它们都使用外部参考数据集。但是,这可能不是一件坏事,因为这些参考数据集提供了更丰富的信息。


推荐阅读