首页 > 解决方案 > 将自定义实体添加到 SpaCy 的 NER 时出现问题

问题描述

现在,问题是即使在训练句子上测试模型,它也没有显示 ORG、PROD、FAC 等,而只显示“orgName”。

你认为问题出在哪里?

标签: nlpspacynamed-entity-recognition

解决方案


原则上,你试图解决灾难性遗忘问题的方式,通过重新训练它的旧预测,对我来说似乎是一个好方法。

但是,如果您有相同句子的重复版本,但注释不同,并将其提供给 NER 分类器,您可能会混淆模型。原因是它不仅看正面例子,而且还明确地将未注释的单词视为负面案例。

所以如果你有“Bob living in London”,而你只注释了“London”,那么它会认为 Bob 肯定不是 NE。如果然后你有第二个句子你只注释 Bob,它将“忘记”伦敦是一个 NE,因为现在它没有被注释。所以一致性真的很重要。

我建议实施更高级的算法来解决冲突。一种选择是总是只取最长的带注释的实体Span。但如果跨度通常完全相同,您可能需要重新考虑您的标签方案。哪些实体最常发生碰撞?我会假设 ORG 和 OrgName?你真的需要ORG吗?也许两者可以“合并”为同一个实体?


推荐阅读