首页 > 解决方案 > 如何在 Python 中将中文段落拆分为句子?

问题描述

由于中文与英文不同,那么我们如何将中文段落拆分为句子(在Python中)?中文段落示例如下

我的想法是“先谷歌搜索,再来问问题”,我已经搜索了,没有找到好的答案。</p>

据我所知,

from nltk import tokenize
tokenize.sent_tokenize(paragraph, "chinese")

不工作,因为tokenize.sent_tokenize()不支持中文。

我通过谷歌搜索找到的所有方法都依赖于正则表达式(例如

re.split('(。|!|\!|\.|?|\?)', paragraph_variable)

)。这些方法还不够完善。似乎没有一个单一的正则表达式模式可以用来正确地将中文段落拆分成句子。我想应该有一些学习模式来完成这项任务。但是,我找不到他们。

标签: pythonchinese-locale

解决方案


推荐阅读