python - 避免作者姓名拆分Python
问题描述
我正在阅读 PDF 文件并在分隔符(' . ')的基础上拆分整个文本,但该 PDF 还包含这样的作者姓名;
类似于 Valenzuela 等人的工作。[1] 和朱等人。[2],我们使用了从引用到被引用论文的引用、每节引用和作者重叠等特征。
我的代码像这样将这一行分成3行
- 类似于 Valenzuela 等人的工作
- [1] 和朱等人
- [2],我们使用从引用到被引用论文的引用、每节引用和作者重叠等特征
这是我阅读pdf文本并将其拆分的代码;
from tika import parser
import re
rege x = re.compile(r'\[\d]')
objFile = parser.from_file('read.pdf')
text = objFile['content']
lstString = text.strip()
lstString = lstString.split(".")
谁能帮助我如何避免作者姓名分裂?
解决方案
推荐阅读
- json - 嵌套 JSON 与 SQL Server 中的现有视图 - 声明性 ORM SQLAlchemy 模型
- php - PHP 尝试获取 http://getURL 而不是 $_['getURL'] 分配给的内容
- r - 如何为因子的每个实例分配一个特定的值?
- powerbi - Power BI 的前一天
- callback - Glib - 直接执行 GCallback 的最简单方法是什么?
- java - 为什么从同一个类的另一个本地方法调用实例变量时,在实现接口的方法内部分配实例变量不起作用?
- api - http 应用程序使用 https web api - 它安全吗?
- world-of-warcraft - WoW Macro - 将技能放置在特殊栏上
- facebook - SparkAR 在没有 NetworkingModule 的情况下发出网络请求
- c++ - 为什么没有找到一个 Visual Studio # 包含两个文件?