python - Spacy 语言在训练 NER 时是否独立?
问题描述
如果我完全从头开始训练 NER 模型,语言是否重要?在 API 中,我设置了语言,但我也为 API 提供了命名实体的跨度。命令行格式更进一步,我为每个句子的每个标记给出了 NER 标签。例如,我可以使用 ICU 标记日语,标记标记,然后将其提供给 Spacy 吗?
解决方案
从 Spacy 2.0 开始,将语言设置为xx
将训练一个独立于语言的模型,并且可以自定义管道。虽然标记器、标记器和解析器都依赖于语言,但可以禁用标记器和解析器。如果使用GoldParse 类提供预标记输入,则可以跳过标记器。使用命令行工具很容易做到这一点。spacy train
具有禁用标记器和解析器的选项,并且输入格式是预先标记的。spacy convert
可用于将标准 NER 文件格式转换为 Spacy 的格式。
推荐阅读
- c++ - 具有 constexpr 构造函数的嵌套类,从具有非 constexpr 构造函数的模板参数派生时是否合法?
- autodesk-forge - 如何从 Forge 查看器中导出包含 MarkupsCore 标记的 .dwg 文件?
- selenium - 错误 [严重]:从渲染器接收消息超时:20.000 在 Jenkins 上通过 Selenium 执行测试套件时
- php - 使用数组值填充表单并使用表单访问数据库
- flutter - 带有自动完成功能的 Flutter 搜索栏
- statistics - 检验大型不平衡面板数据中的异方差性和自相关性
- android - 如何从 shell 脚本调用 Android OS API?
- java - 将执行流程从一个 jframe 传递到 JAVA 中的另一个 jframe
- javascript - 嵌套表单中的动态选择
- javascript - 将对象数组传递给greensocks的贝塞尔曲线导致错误