首页 > 解决方案 > Apache OpenNLP 在运行其命名实体识别 (NER) 模型时默认使用哪些功能?

问题描述

我知道 Apache OpenNLP 将 MaxEnt 模型用于其 NER 标记器。但是,Apache OpenNLP 在运行其命名实体识别 (NER) 模型时(默认情况下)使用了哪些功能?以及我们如何在 OpenNLP(Java 实现)中合并/自定义新功能?

标签: opennlpnamed-entity-recognitionmaxent

解决方案


在 Apache OpenNLP NER 中,它允许用户通过 XML 文件定义特征。默认的 XML 是这样的:

https://github.com/apache/opennlp/blob/master/opennlp-tools/src/main/resources/opennlp/tools/namefind/ner-default-features.xml

如果要自定义它,-featuregen请在训练模型时使用选项:

$ opennlp TokenNameFinderTrainer -featuregen your-features-definition.xml -model my-model.bin ...

当您执行 TokenNameFinder 时,您不需要指定您自定义的特征 XML 文件,因为模型文件包含您的特征信息。


推荐阅读