首页 > 解决方案 > 避免作者姓名拆分Python

问题描述

我正在阅读 PDF 文件并在分隔符(' . ')的基础上拆分整个文本,但该 PDF 还包含这样的作者姓名;

类似于 Valenzuela 等人的工作。[1] 和朱等人。[2],我们使用了从引用到被引用论文的引用、每节引用和作者重叠等特征。

我的代码像这样将这一行分成3行

这是我阅读pdf文本并将其拆分的代码;

from tika import parser
import re

rege x = re.compile(r'\[\d]')

objFile = parser.from_file('read.pdf')
text = objFile['content']
lstString = text.strip()
lstString = lstString.split(".")

谁能帮助我如何避免作者姓名分裂?

标签: pythonsplitpdf-reader

解决方案


推荐阅读