data-science - 主题连贯性(gensim CoherenceModel)是否也仅根据我的语料库或外部数据计算?
问题描述
我正在使用 LDA 对 20 世纪英语对应的语料库进行主题建模,并且我一直在使用主题连贯性(以及轮廓分数)来评估我的主题。CoherenceModel
我使用具有连贯性的gensim ,c_v
我得到的最高0.35
分数是我测试过的所有模型中的一个分数,即使是在定性评估中对我最有意义的主题中,即使经过广泛的预处理和超参数比较也是如此。
所以我基本上接受这是我能得到的最好的,但为了写它,我现在一直在阅读主题连贯性,我已经理解它是一个管道,它模拟了人类的判断。但是,我看不到一件事来找到明确的信息:它是完全基于对我的语料库进行的计算,还是也基于一些外部数据?就像在可能与我的域无关的外部语料库上受过训练?我应该u_mass
改用吗?
解决方案
是的,除了u_mass
,它们都使用外部参考数据集。但是,这可能不是一件坏事,因为这些参考数据集提供了更丰富的信息。
推荐阅读
- javascript - 我如何遍历 d3.select(this)
- javascript - 在反应引导 Form.Control 中显示可编辑值
- javascript - 如何从 DocuSign JavaScript 中删除硬返回以创建 Salesforce 自定义按钮
- reactjs - TypeError:_this.props.addLead 不是反应中的函数
- javascript - JS Promise 链 .catch() 在被拒绝后不起作用
- javascript - 两个组件之间的 React js 通信
- p5.js - 在 for 循环中创建按钮,每个按钮在 p5 中都有不同的 mousePressed 函数
- python - 逻辑回归的沙普利?
- scala - 如何在 spark 1.6 中显示带有标签的不匹配报告 - scala 除了函数?
- flutter - 如何在颤振中处理 100vh?