首页 > 解决方案 > Spacy 语言在训练 NER 时是否独立?

问题描述

如果我完全从头开始训练 NER 模型,语言是否重要?在 API 中,我设置了语言,但我也为 API 提供了命名实体的跨度。命令行格式更进一步,我为每个句子的每个标记给出了 NER 标签。例如,我可以使用 ICU 标记日语,标记标记,然后将其提供给 Spacy 吗?

标签: pythonnlpspacy

解决方案


从 Spacy 2.0 开始,将语言设置为xx将训练一个独立于语言的模型,并且可以自定义管道。虽然标记器、标记器和解析器都依赖于语言,但可以禁用标记器和解析器。如果使用GoldParse 类提供预标记输入,则可以跳过标记器。使用命令行工具很容易做到这一点。spacy train具有禁用标记器和解析器的选项,并且输入格式是预先标记的。spacy convert可用于将标准 NER 文件格式转换为 Spacy 的格式。


推荐阅读