首页 > 解决方案 > 使用 Python 从 PDF 文件中提取标题、副标题和段落

问题描述

我想从 PDF 文件中提取标题、副标题和段落

例如,我的文字是:

  1. Abstract 

    Some text 1



   2. Introduction 

    some text 2

   2.1. Background

       some text 2.1

  2.2. Reviews

       some text 2.2

  3. Methods

    some text 3


  4. References

    references

headings列表将是:

  1. 摘要,2。引言,2.1。背景,2.2。评论,3. 方法,4. 参考)

paragraphs清单将是:

一些文本 1,一些文本 2,一些文本 2.1,一些文本 2.2,一些文本 3,参考文献

标签: pythonpdf

解决方案


你可能想看看 Tika 包:

import tika
from tika import parser

parsedPDF = parser.from_file("./File/Path.pdf")
print(parsedPDF['content'])
print(parsedPDF['metadata']) 

推荐阅读