首页 > 解决方案 > MALLET 中的主题分配

问题描述

我的问题涉及 MALLET 中的主题分配以及它影响结果解释的方式。

doc-topics-file 说明了每个主题在文件中所占的比例。然而,在列表的顶部(58%)我遇到了一个文件,它没有使用根据主题键文件构成主题 X 的单词之一。为了找到这个现象的答案,我检查了 output-state-file 并了解到许多没有出现在 topic-keys-list 中的单词已分配给 Topic X。

为什么mallet 不仅根据topics-keys-file 中出现的单词(作为对topic 最重要的)来计算doc-topics-file 中topic 的比例?

标签: mallet

解决方案


主题键输出仅用作模型的人类可读摘要。主题实际上是整个词汇表上的概率分布,尽管对于大多数单词来说,任何给定主题的概率仅与平滑参数成正比。为每个主题打印最多 100-200 个热门词可以更好地了解主题所代表的内容,但选择默认的热门词数以适合每个终端行一个主题。


推荐阅读