spacy - 将自定义数据转换为 spacy ner 格式
问题描述
我正在使用 flair 来训练自定义 NER 模型,但我也想尝试 spacy,但我的数据目前是这种格式
No O
1320160208478 B-NUM
P O
R O
Name O
Ryan B-PER
Dsouza B-PER
关于如何将其格式化为 spacy NER 格式的任何建议?提前致谢。
解决方案
Spacy 内置了一些常见格式的转换器,但这并不是其中之一。我认为最容易转换的格式是 CoNLL 2003 NER 格式,它需要两个额外的空格分隔列,在单词和标签之间使用占位符值,以便 IOB 标签位于第 4 列:
No _ _ O
1320160208478 _ _ B-NUM
P _ _ O
R _ _ O
Name _ _ O
Ryan _ _ B-PER
Dsouza _ _ B-PER
在句子之间放置空行,如果您在一个文件中有多个文档,您可以在文档之间添加它以分隔它们。
-DOCSTART- -X- O O
然后您可以使用内置转换器:
python -m spacy convert -c ner input.txt output_dir
(另外,您确定B-PER
连续两个标签在您的数据中是正确的Ryan Dsouza
吗?)
推荐阅读
- macos - Gulp 无法在带有 OS Monterey 的 M1 MacBook Pro 上工作
- python - Python 日志记录和动态日志文件名
- python - PyQt5 QGroupBox 与 QCheckBox - 关闭自动禁用
- php - 我从 PHP PDO 中的数据库中得到�三角形中的问号和�
- javascript - 基于另一个在 vue 3 中计算的变化计算
- xcode - 与名为 com.apple.fonts 的服务的连接在 xcodebuild -resolvePackageDependencies 上无效
- r - 通过循环 ggplot 创建多个绘图时动态分配绘图对象名称(按索引)
- r - 从某些字符串中删除 NA 并将其粘贴到一个 data.frame 中
- vba - 如何获得精确格式的 MS word 段落使用 VBA 复制和粘贴
- javascript - 添加绝对定位的伪元素时移动表格边框