首页 > 解决方案 > Mallet 主题训练期间的 Java 异常

问题描述

我在 Linux 2.6.32-696.18.7.el6.x86_6 和 Java SE 运行时环境(内部版本 1.7.0_05-b06)下有以下槌命令(适用于 v 2.0.8(2016 年 5 月 3 日)):

bin/mallet train-topics --input html/$1/topic --num-topics $1 \
--output-doc-topics result  \
--output-topic-docs top.gz
--optimize-interval 10 \
--num-threads 20 \
--output-topic-keys keys.txt \
--optimize-interval 10

但经过 1000 次迭代后,我只得到这个输出:

<1000> LL/令牌:-8.98037
总时间:1小时47分18秒
线程“主”java.lang.ClassCastException 中的异常:java.net.URI 无法转换为 java.lang.String
        在 cc.mallet.topics.ParallelTopicModel.printTopicDocuments(ParallelTopicModel.java:1773)
        在 cc.mallet.topics.tui.TopicTrainer.main(TopicTrainer.java:281)
关于这意味着什么或如何避免问题的任何建议?有没有办法继续?

丹尼尔芬伯格 NBER

标签: javamallet

解决方案


感谢您使用槌!直接原因是 2.0.8 版本期望“名称”字段是字符串,而不是 URI。看起来这个问题在 2.0.8 发布后不久就在 Te Rutherford 的拉取请求中得到了修复。在接下来的几周内应该会有一个 2.1 的预发布版本。


推荐阅读