nlp - OpenNLP 中的 NER 训练是否存在“最佳”标记化?
问题描述
OpenNLP 中的 NER 训练是否存在“最佳”标记化?我注意到 OpenNLP 提供了一个最大熵分词器,它允许您基于经过训练的模型进行分词。我还注意到 OpenNLP 提供了一个简单的分词器。如果我在运行时使用与训练模型相同的分词器,我使用哪个分词器有关系吗?
我宁愿为我的应用程序使用简单的标记器。
解决方案
对于大多数应用程序而言,标记器的质量并不是很重要,只要您在训练中使用相同的标记器,之后就可以了。
然而,唯一可以确定的方法是尝试不同的分词器并比较结果——对于某些应用程序来说,一个好的分词器和一个好的分词器之间的区别可能很重要。
推荐阅读
- angular - 如何测试是否在 Angular Material 中正确禁用了 matTooltip?
- python - 在 gspread (Python) 中插入新行?
- python - 如何根据 slack bot 脚本中的时间表从列表中提及特定用户?
- flutter - 如何导航到另一个具有构造函数但不传递任何数据的屏幕
- python - 当我想在 tryton 上搜索字段记录时显示属性名称的问题
- html - 如何增加输入框的大小(长度而不是宽度)?
- angular - Three.js 中的内存泄漏与 Angular 路由的一个简单示例
- javascript - JQuery 测验应用程序未重置以显示下一个答案
- c# - 在文本框中审查的自定义
- python - 使用 Keras 功能 API 的多输入多输出模型