首页 > 解决方案 > spaCy Doc.sents 未正确拆分

问题描述

在一个 NLP 文本摘要示例中,我遇到了一个奇怪的情况。该示例使用 spaCy 库来处理文本。我通过下面的两个案例来说明情况。

在第一种情况下(参见第一张图片),spaCy 不会在句点字符之后拆分句子,正如您在红色轮廓部分中看到的那样,“ won by the Whites. ”。

在第二种情况下(见第二张图片),在我将句子向上移动后,以“Whites.”结尾,spaCy 确实在句号字符之后拆分句子,正如您在红色轮廓部分中看到的那样,“由白人, “。请注意,这次以“Whites.”结尾的句子末尾有一个逗号。这意味着与第一种情况不同,这句话已从下一个句子中分离出来。

我也通过将句子移动到另一个位置来观察这种情况。

除了这可能是一个错误之外,我什么都没有想到。(我已将文本复制到文本编辑器,然后粘贴到笔记本上,以确保句点旁边没有特殊字符。)

你怎么看?

我在这里共享笔记本,以便您可以使用它: https ://colab.research.google.com/drive/1MXRIrak0y680U84g0a0glpjX-clkkdtG?usp=sharing

呸呸呸

在此处输入图像描述

标签: nlpspacy

解决方案


我认为您的问题可能是它可能是第二个列表中的列表。但是,如果我错了,请随时纠正我。


推荐阅读