spacy - 为 spaCy 使用 BILOU 标签注释句子
问题描述
我应该如何用 BILOU 标签注释(定义实体)以下句子?特别是,由于 BILOU 不提供字符位置,我应该如何处理附加到没有任何空格的单词的特殊字符/标点符号?例如(Principal
, (Co-investigator)
等Dr.
。
医学博士。XYZ DEF(首席研究员)XYZ ABC(联合研究员),医学博士。XYZ RST(独立评分者)
我应该将(Principal
其视为单一实体吗?
解决方案
对于 BILOU 标记,您需要具有预先标记的文本。是一个标记还是(Principal
两个标记取决于您的标记器,但它通常会被拆分。
这是一个使用带有默认英文模型和一些基本标签的 spaCy 的 BILOU 示例:
Dr. O
med O
. O
XYZ B-PERSON
DEF L-PERSON
( O
Principal B-ROLE
Investigator L-ROLE
) O
XYZ B-PERSON
ABC L-PERSON
( O
Co B-ROLE
- I-ROLE
investigator L-ROLE
) O
, O
Dr. O
med O
. O
XYZ B-PERSON
RST L-PERSON
( O
Independent B-ROLE
Rater L-ROLE
) O
如果您使用 spaCy,您可以为训练数据指定带有字符范围的 NER 标签,这应该有助于标记器输入的变化。有关详细信息,请参阅培训文档。
推荐阅读
- firebase - react-native 应用程序中用户组的推荐架构是什么?
- python-3.x - 如何在同步方法中运行 asyncio.wait 方法?
- python - 在解析时自动化无聊的东西,意外的 EOF
- qt - QByteArray 的显示值
- c - 添加系统调用以获取 atheros ath9k_htc 驱动程序的硬件 tx rx 队列长度
- php - Elasticsearch 7.2 使用映射和自定义分析器 php 创建索引
- pattern-matching - 了解 Elixir 函数参数中的模式匹配
- apache-flink - Flink MetricReporter 得到哪些 Metrics?
- angular - 为什么 mat-menus 中的按钮不提交?
- c++ - 如何通过另一个类将共享指针传递给一个类?