database - 如何从pdf中提取文本并使用python将信息转储到数据库中
解决方案
我看到你在 Windows 中,所以这就是你在 Windows 中安装它的方式!您首先需要正确安装setup.py文件。
- cd C:\Users\User\Downloads\pyPDF2 进入 setup.py 所在目录
- C:\python27\python.exe setup.py install 我这里用的是Python2.7。使用 C:\python33\python.exe setup.py install for python 3.3 等等。
这是最快的方法(检查源代码!!)
关于如何提取它,有很多教程。您应该关注官方文档和值得信赖的网站!这是一个例子!
from PyPDF2 import PdfFileReader
def text_extractor(path):
with open(path, 'rb') as f:
pdf = PdfFileReader(f)
# get the first page
page = pdf.getPage(1)
print(page)
print('Page type: {}'.format(str(type(page))))
text = page.extractText()
print(text)
if __name__ == '__main__':
path = 'reportlab-sample.pdf'
text_extractor(path)
推荐阅读
- python - 如果按住一个键并释放另一个键,我如何确保我的 pygame 车继续移动?
- python - 熊猫:在绘图之前转换数据框
- c++ - emplace_back 一个包含互斥体的对象
- ngrx-entity - 当一个子减速器依赖于适配器时,如何将选择器与 combineReducers 一起使用?
- python - 阅读 AVL 数据 TELTONIKA
- xml - 这个简单的 XML 有什么问题?
- typescript - 如何使用 Rollup.js 将绝对导入转换为相对导入?
- python - 如何设置 docker compose 以使用 ssh 通过 EC2 Bastion 连接到私有子网上的 AWS RDS
- c - 如何处理这种冲突的类型错误
- r - 将多图 ggplots 与拼凑和单个图例对齐