python - 使用 Python 从 PDF 文件中提取标题、副标题和段落
问题描述
我想从 PDF 文件中提取标题、副标题和段落
例如,我的文字是:
1. Abstract
Some text 1
2. Introduction
some text 2
2.1. Background
some text 2.1
2.2. Reviews
some text 2.2
3. Methods
some text 3
4. References
references
该headings
列表将是:
- 摘要,2。引言,2.1。背景,2.2。评论,3. 方法,4. 参考)
paragraphs
清单将是:
一些文本 1,一些文本 2,一些文本 2.1,一些文本 2.2,一些文本 3,参考文献
解决方案
你可能想看看 Tika 包:
import tika
from tika import parser
parsedPDF = parser.from_file("./File/Path.pdf")
print(parsedPDF['content'])
print(parsedPDF['metadata'])
推荐阅读
- c++ - Compactify C++ 函数调用语法
- jquery - 如何在jquery中获取选择器的孩子?
- c# - 自定义 JsonConverter 不适用于 WebAPI 对象反序列化
- java - Gridbag 布局未正确对齐
- pandas - 我想用多列绘制以下数据框的折线图和散点图
- scala - 当客户端关闭 Web 套接字连接时停止 Akka 流源
- angular - Angular 升级后的构建错误 - MediaQueryListEvent 不可分配类型为 MediaQueryList
- javascript - 如何循环遍历地图
- c++11 - 有没有办法从另一个函数访问 main 中的变量?
- ios - 用户位置 MKAnnotationView 在 iOS 10、11、12 中相对于其他注解的显示顺序