nlp - Gensim Mallet:输出没有针对少数主题的术语
问题描述
下面是我使用 Gensim Mallet 包装器得到的输出。从这个 SO链接我了解到 LL/token 的意思是“模型的对数似然除以令牌的总数”。1)但是,对于像(1,8,11 等)这样的少数主题,我根本看不到任何术语。2) 我尝试为 (10,20,2) 中的一系列主题运行代码(从 10-20 开始的第 2 步)。但输出显示 17 作为最后生成的主题。我在这里遗漏了一些东西..
0 2.77778 watch
1 2.77778
2 2.77778 receive tape hope purchase
3 2.77778 dvds wildlife pass yr interested
4 2.77778 dvd version walk bored
5 2.77778 volume courtyard trilogy
6 2.77778 crazy picture minute
7 2.77778 neighbor
8 2.77778
9 2.77778 buy mice trouble stay versus feeder
10 2.77778 inside stir tv mine life bird wonderful year fascinated
11 2.77778
12 2.77778
13 2.77778 recommend test real prefer greenery
14 2.77778 age
15 2.77778 funny triliogy play friend full minute
16 2.77778
17 2.77778 time tree
<950> LL/token: -22.17456
<960> LL/token: -22.22132
<970> LL/token: -22.24897
<980> LL/token: -22.11585
<990> LL/token: -22.38062
解决方案
当输入集合太小或被分成太少的段时,这看起来像你得到的输出。“文档”应该在100-500字左右,至少有几百个。
推荐阅读
- java - 我已经使用 PartitionKey 注释声明了主键,但仍然得到 Entity Order 没有声明主键
- java - 从回收站视图中获取原始项目?
- cordova - 在 Cordova 应用程序中更改 mabox-gl-cordova-offline 地图的地图样式
- java - 将不同的 @Configuration bean 传递给基于 rest 的客户端
- java - 如何创建自定义按钮类并添加默认功能
- azure-cognitive-search - 从 OData 查询字符串创建 SearchParameters?
- javascript - 在集成 React 本机和 android 应用程序时更改 MainActivity 条目
- lua - 在 corona sdk 中旋转对象
- webview - 在 WebView UWP 中调用 Javascript
- r - R markdown inline r 打印列表