首页 > 解决方案 > 如何从pdf中提取文本并使用python将信息转储到数据库中

问题描述

如何从pdf中提取文本并使用python将信息转储到数据库中?如何安装PyPDF2

我试过这样做,但它显示了以下问题

标签: databasepython-2.7pdf

解决方案


我看到你在 Windows 中,所以就是你在 Windows 中安装它的方式!您首先需要正确安装setup.py文件。

  • cd C:\Users\User\Downloads\pyPDF2 进入 setup.py 所在目录
  • C:\python27\python.exe setup.py install 我这里用的是Python2.7。使用 C:\python33\python.exe setup.py install for python 3.3 等等。

这是最快的方法(检查源代码!!)

关于如何提取它,有很多教程。您应该关注官方文档和值得信赖的网站!是一个例子!

from PyPDF2 import PdfFileReader
def text_extractor(path):
    with open(path, 'rb') as f:
        pdf = PdfFileReader(f)
        # get the first page
        page = pdf.getPage(1)
        print(page)
        print('Page type: {}'.format(str(type(page))))
        text = page.extractText()
        print(text)
if __name__ == '__main__':
    path = 'reportlab-sample.pdf'
    text_extractor(path)

推荐阅读