nlp - spaCy Doc.sents 未正确拆分
问题描述
在一个 NLP 文本摘要示例中,我遇到了一个奇怪的情况。该示例使用 spaCy 库来处理文本。我通过下面的两个案例来说明情况。
在第一种情况下(参见第一张图片),spaCy 不会在句点字符之后拆分句子,正如您在红色轮廓部分中看到的那样,“ won by the Whites. ”。
在第二种情况下(见第二张图片),在我将句子向上移动后,以“Whites.”结尾,spaCy 确实在句号字符之后拆分句子,正如您在红色轮廓部分中看到的那样,“由白人, “。请注意,这次以“Whites.”结尾的句子末尾有一个逗号。这意味着与第一种情况不同,这句话已从下一个句子中分离出来。
我也通过将句子移动到另一个位置来观察这种情况。
除了这可能是一个错误之外,我什么都没有想到。(我已将文本复制到文本编辑器,然后粘贴到笔记本上,以确保句点旁边没有特殊字符。)
你怎么看?
我在这里共享笔记本,以便您可以使用它: https ://colab.research.google.com/drive/1MXRIrak0y680U84g0a0glpjX-clkkdtG?usp=sharing
解决方案
我认为您的问题可能是它可能是第二个列表中的列表。但是,如果我错了,请随时纠正我。
推荐阅读
- c# - Inno 安装程序出错 - 无效的类字符串 progid “IISNamespace”
- xamarin.forms - 当我们使用 xamarin 表单使用前台服务时无法重新启动应用程序
- mongodb - MongoDB:如何根据条件从链接集合中获取数据
- javascript - Froala 编辑器未显示正确的链接编辑按钮
- machine-learning - 自变量和因变量之间的关系
- python-3.x - 在scrapy中,我如何从json文件中产生附加值以及要传递给管道的抓取项目
- oracle-xe - 使用 IBM Integration Toolkit 中制作的应用程序从 Oracle XE 中选择数据
- php - 如何将 HTML 代码放入 PHP 中以进行可视化作曲家插件开发?
- javascript - 是否可以在浏览器中为 react 项目创建虚拟 fs?
- java - 通过 Glide 在活动之间共享图像