首页 > 解决方案 > 包含下划线字符的实体被CoreNLP中的TokensAnnotation拆分为多个实体

问题描述

我观察到 coreNLP 3.9.2 已开始将 enti_ties 拆分为多个,例如 'enti' 、 '_' 、 'ties' 同时标记

我尝试使用解决此问题的 tokenize.whitespace。但我认为这将停止拆分“cant't”和“dont't”的标记

标签: stanford-nlptokenizepenn-treebank

解决方案


您可以做的一件事是将下划线 (_) 替换为句点 (.),然后解析器(我相信还有标记器)会将其解释为一个实体。

例如enti_ties>enti.ties后者作为一个实体保留

这并不能完全解决问题,但可以在紧要关头作为一种解决方法。


推荐阅读