mallet - MALLET 中的主题分配
问题描述
我的问题涉及 MALLET 中的主题分配以及它影响结果解释的方式。
doc-topics-file 说明了每个主题在文件中所占的比例。然而,在列表的顶部(58%)我遇到了一个文件,它没有使用根据主题键文件构成主题 X 的单词之一。为了找到这个现象的答案,我检查了 output-state-file 并了解到许多没有出现在 topic-keys-list 中的单词已分配给 Topic X。
为什么mallet 不仅根据topics-keys-file 中出现的单词(作为对topic 最重要的)来计算doc-topics-file 中topic 的比例?
解决方案
主题键输出仅用作模型的人类可读摘要。主题实际上是整个词汇表上的概率分布,尽管对于大多数单词来说,任何给定主题的概率仅与平滑参数成正比。为每个主题打印最多 100-200 个热门词可以更好地了解主题所代表的内容,但选择默认的热门词数以适合每个终端行一个主题。
推荐阅读
- sorting - 在 C++ 中使用 Fenwick 树(二进制索引树)计算插入排序中的移位次数
- javascript - 当输入字段无效时,如何使 angularjs 记录默认的 html5 验证消息?
- reactjs - 如何模拟 window.screen.width 属性?
- javascript - 使用 Hooks 与 React Native 一起返回时刷新屏幕 A
- arrays - 在 Python 中,假设数组/列表中的所有值都是非负的,找到数组/列表中两个整数的最小乘积?
- python - 如何在无服务器中与 Python 正确共享代码?
- jquery - 在内容上单击 -> 隐藏 div -> 隐藏不需要的物化日期选择器
- c++ - 我怎样才能有一个使用类的链表?
- angular - 了解ngrx/data的能力
- python - 从网站抓取动态变化图像的 URL