python - Python:如何正确地将句子分成两个句子?
问题描述
我在 big_sentence 变量中有一个字符串。
big_sentence = "1.Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut laboure et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat. Duis aute irure dolor在 voluptate velit esse cillum dolore eu fugiat nulla pariatur 受到谴责, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat. Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur. 例外sint occaecat cupidatat non proident,罪魁祸首 mollit anim id est labourum。”
我想有这样的分裂:
var_1 = "1.Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat. Duis aute irure dolor在 voluptate velit esse cillum dolore eu fugiat nulla pariatur 受到谴责。Exceptioneur sint occaecat cupidatat non proident,sunt in culpa qui officia deserunt mollit anim id est laborum。
var_2 = "2.Lorem ipsum .. dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua。Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea "
我试图这样做:
big_string.split('.')
但是 big_sentence 中的问题是我有“1”。“2。” 并且在“2.Lorem ipsum”之后还有几个句点“.....”
我该怎么做才能实现我的目标?
解决方案
您可以尝试使用正则表达式。类似的东西。
import re
re.split("\d\.", big_sentence). # \d means a digit and \. means a dot
['',
'Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat. Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur. Excepteur sint occaecat cupidatat non proident, sunt in culpa qui officia deserunt mollit anim id est laborum.',
'Lorem ipsum ....... dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat. Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur. Excepteur sint occaecat cupidatat non proident, sunt in culpa qui officia deserunt mollit anim id est laborum.']
推荐阅读
- oracle - Oracle Pro*C 对象类型转换为 C 结构
- mysql - 为什么我这里不需要给独立的新表起个名字?
- css - 如何在字体图标中转换图标
- postgresql - 具有未知列数的 Postgres 数据库表
- ldap - 将 LDAP 身份验证添加到 html 静态站点
- graphql - In a GraphQL schema documentation comment, how do you link to a type?
- javascript - React JS:TypeError [ERR_INVALID_ARG_TYPE]:“路径”参数必须是字符串类型。接收类型未定义
- php - SYMFONY 序列化器 - 格式错误的 UTF-8 字符,可能编码不正确
- python-3.x - 连接 http 网关服务器到 Python Pyro 的名称服务器的示例
- javascript - discord.js V12“过滤器”未定义