stanford-nlp - 包含下划线字符的实体被CoreNLP中的TokensAnnotation拆分为多个实体
问题描述
我观察到 coreNLP 3.9.2 已开始将 enti_ties 拆分为多个,例如 'enti' 、 '_' 、 'ties' 同时标记
我尝试使用解决此问题的 tokenize.whitespace。但我认为这将停止拆分“cant't”和“dont't”的标记
解决方案
您可以做的一件事是将下划线 (_) 替换为句点 (.),然后解析器(我相信还有标记器)会将其解释为一个实体。
例如enti_ties
>enti.ties
后者作为一个实体保留
这并不能完全解决问题,但可以在紧要关头作为一种解决方法。
推荐阅读
- geb - 在 Geb/Spock 中调用 js.exec 时,exec 方法被标记为“null”
- excel - 无法使用 selenium VBA 从网页的下拉列表中选择一个值
- bazel - 在多仓库中使用 Bazel
- php - 使用 cURL 下载部分图像。如何检测?
- apache-spark - Pyspark process array column using udf and return another array
- linux - 调用 tcflow(fildes, TCOOFF) 后,我可以继续将输出数据放在串行端口上吗?
- javascript - 如何在 GeoFire.set 对象中保存其他属性,firebase?
- php - 使用 Nginx 并行运行 PHP 和 React
- python - 数据框布局适应 - 转置,将行转换为列名并分组
- maven - 在 Jenkins 上构建的 Maven 作业给出错误“无法执行默认部署目标”