python - 如何在 Python 中将中文段落拆分为句子?
问题描述
由于中文与英文不同,那么我们如何将中文段落拆分为句子(在Python中)?中文段落示例如下
我的想法是“先谷歌搜索,再来问问题”,我已经搜索了,没有找到好的答案。</p>
据我所知,
from nltk import tokenize
tokenize.sent_tokenize(paragraph, "chinese")
不工作,因为tokenize.sent_tokenize()
不支持中文。
我通过谷歌搜索找到的所有方法都依赖于正则表达式(例如
re.split('(。|!|\!|\.|?|\?)', paragraph_variable)
)。这些方法还不够完善。似乎没有一个单一的正则表达式模式可以用来正确地将中文段落拆分成句子。我想应该有一些学习模式来完成这项任务。但是,我找不到他们。
解决方案
推荐阅读
- r - 如何分隔包含 JSON 数据的 r data.frame 中的行?
- sql - 在许多表中查找共同值
- python - 编译和执行在 C 中嵌入了 Python 的 C 文件时出现问题
- python - 如何在本文中生成像 taht 这样的颜色图?
- jupyter-notebook - 如何解决无法运行“xelatex .\notebook.tex -quiet”命令:notebook.tex:373:?
- python - 使用 matplotlib 生成交互式绘图时的图形问题
- javascript - 如何在浏览器中为附加到 html 的模块设置正确的命名空间,以测试函数对该模块中另一个函数的调用?
- reactjs - 努力在 React 应用程序中使用 Typescript 设置通用助手
- c++ - 如何使用基类函数访问派生类成员函数?
- c# - 如何计算 MessagePack .NET 对象的大小?