首页 > 解决方案 > OpenNLP 中的 NER 训练是否存在“最佳”标记化?

问题描述

OpenNLP 中的 NER 训练是否存在“最佳”标记化?我注意到 OpenNLP 提供了一个最大熵分词器,它允许您基于经过训练的模型进行分词。我还注意到 OpenNLP 提供了一个简单的分词器。如果我在运行时使用与训练模型相同的分词器,我使用哪个分词器有关系吗?

我宁愿为我的应用程序使用简单的标记器。

标签: nlptraining-dataopennlpnamed-entity-recognition

解决方案


对于大多数应用程序而言,标记器的质量并不是很重要,只要您在训练中使用相同的标记器,之后就可以了。

然而,唯一可以确定的方法是尝试不同的分词器并比较结果——对于某些应用程序来说,一个好的分词器和一个好的分词器之间的区别可能很重要。


推荐阅读