python - 尝试使用 nltk 在 python 中标记特殊情况的句子
问题描述
我有一个 Python 脚本,它使用 NLTK 将文本拆分为句子。我遇到的问题是两种特殊情况,我不确定是否可以使用此工具解决它。首先,句子之间偶尔会有字符。例如:
This is the first sentence. // This is the second sentence.
sent_tokenize(text)
如果我用I get进行标记,This is the first sentence.
第二// This is the second sentence.
句话应该是This is the second sentence.
我可以去掉斜线,但我正在寻找工具包已经提供的更清洁的方法。也许指定句子必须以大写字母或任何字母开头。我不知道标记化时是否可以指定任何参数。
该工具包可能不是我下一个问题的最佳工具,但有时一个句子会有各种各样的主标题。例如Words in a Title: This is my story.
,当应该标记化时,This is my story.
我可能只需要以其他方式解决这个问题,如果有冒号的话,就去掉所有剩下的东西,或者类似的东西。
解决方案
推荐阅读
- javascript - getCurrentPosition 中的 React-native-maps setState 不适用于我的 url API
- java - Java - 计算多向量的所有对位置距离
- .net-core - MassTransit 和 Amazon SQS - EventType 被创建为队列
- javascript - 在 DIV 外部单击以隐藏它
- javascript - 尝试将 HTML 添加到 var 时,appendChild 不是函数
- c# - NLog 是否有可能在发生错误时发送电子邮件并包含前五个不同级别的日志?
- ios - 选择要下载的最后一个文件并在 Json UITableview Alamofire Swift 中跳过一个以上文件
- firebase-realtime-database - 试图了解 Firebase 数据库权限
- python-3.x - 如何使用 Wireshark scapy 打开 pcap 文件?
- firebase - 访问 Firestore 安全规则中的特定字段