首页 > 解决方案 > Gensim Mallet:输出没有针对少数主题的术语

问题描述

下面是我使用 Gensim Mallet 包装器得到的输出。从这个 SO链接我了解到 LL/token 的意思是“模型的对数似然除以令牌的总数”。1)但是,对于像(1,8,11 等)这样的少数主题,我根本看不到任何术语。2) 我尝试为 (10,20,2) 中的一系列主题运行代码(从 10-20 开始的第 2 步)。但输出显示 17 作为最后生成的主题。我在这里遗漏了一些东西..

0       2.77778 watch 
1       2.77778 
2       2.77778 receive tape hope purchase 
3       2.77778 dvds wildlife pass yr interested 
4       2.77778 dvd version walk bored 
5       2.77778 volume courtyard trilogy 
6       2.77778 crazy picture minute 
7       2.77778 neighbor 
8       2.77778 
9       2.77778 buy mice trouble stay versus feeder 
10      2.77778 inside stir tv mine life bird wonderful year fascinated 
11      2.77778 
12      2.77778 
13      2.77778 recommend test real prefer greenery 
14      2.77778 age 
15      2.77778 funny triliogy play friend full minute 
16      2.77778 
17      2.77778 time tree 

<950> LL/token: -22.17456
<960> LL/token: -22.22132
<970> LL/token: -22.24897
<980> LL/token: -22.11585
<990> LL/token: -22.38062

标签: nlpgensimldatopic-modelingmallet

解决方案


当输入集合太小或被分成太少的段时,这看起来像你得到的输出。“文档”应该在100-500字左右,至少有几百个。


推荐阅读