python-3.x - 如何为 spacy 的自定义命名实体识别准备数据?
问题描述
我正在尝试使用 spacy 为自定义命名实体识别准备一个训练数据集。我的数据有一个变量“Text”,其中包含一些句子,一个变量“Names”,其中包含来自前一个变量(句子)的人名。在浏览了一些示例和 spacy 的文档之后,我意识到在准备数据集时必须传递实体的索引。我想知道在准备数据集时是否有任何方法可以直接将实体作为字符串传递?
解决方案
不,spaCy 将需要您的实体字符串的确切开始和结束索引,因为字符串本身可能并不总是在源文本中唯一标识和解析。例子:
Apple
通常是 ORG,但也可以是 PERSON。Ann
是一个人,但不在Annotation tools are best for this purpose.
在 python 中,您可以使用 re 模块来获取索引:
>>> import re
>>> [m.span() for m in re.finditer('Amazon', 'The Amazon is a river in South America. Amazon Inc is a company.')]
[(4, 10), (41, 47)]
在创建 spaCy 训练集之前,您必须检查并验证索引。
推荐阅读
- python-3.x - 如何在 linux/Windows 上更新 ToC 元素?
- amazon-web-services - AWS DynamoDB 中一张表的并发 put 请求的限制是多少
- networking - 无法通过 NAT 网络从局域网中的 PC 连接 VMware 虚拟机
- html - 使用 django 打印一个 html 页面
- reactjs - ResizeObserver API 测试笑话
- uno-platform - 从命令行构建 Uno Platform 项目时的问题
- codeceptjs - 如何获取当前工人的身份证?
- r - 在先知中设定整体趋势优先
- java - 土耳其语字符未在 HTML 上正确显示
- c++ - 预处理 C 代码以自动原型化所有函数和方法?