首页 > 解决方案 > 尝试使用 nltk 在 python 中标记特殊情况的句子

问题描述

我有一个 Python 脚本,它使用 NLTK 将文本拆分为句子。我遇到的问题是两种特殊情况,我不确定是否可以使用此工具解决它。首先,句子之间偶尔会有字符。例如:

    This is the first sentence. // This is the second sentence.

sent_tokenize(text)如果我用I get进行标记,This is the first sentence.第二// This is the second sentence.句话应该是This is the second sentence.我可以去掉斜线,但我正在寻找工具包已经提供的更清洁的方法。也许指定句子必须以大写字母或任何字母开头。我不知道标记化时是否可以指定任何参数。

该工具包可能不是我下一个问题的最佳工具,但有时一个句子会有各种各样的主标题。例如Words in a Title: This is my story.,当应该标记化时,This is my story.我可能只需要以其他方式解决这个问题,如果有冒号的话,就去掉所有剩下的东西,或者类似的东西。

标签: pythonnlpnltk

解决方案


推荐阅读