python - 如何在 Python 中抓取此 PDF?
问题描述
我想用python刮掉这个PDF的信息。我不知道从哪里开始,因为它根本没有组织。我习惯于抓取 HTML。我尝试将其转换为 HTML,但这并没有真正帮助。
您将如何尝试抓取此 PDF?这是 PDF 的链接(任何都可以,它们都相似):http ://www.snco.us/doc/booking/(S(mgv3bhohvbweq0rj4wsq3puo))/inmate/DailyBookingArchive?Length=0
谢谢你的帮助:D
解决方案
这是我的做法,然后根据需要从这里构建。
import PyPDF2 as p2
import xlsxwriter
pdfFileName = "NAME OF PDF HERE.pdf"
pdfFile = open(pdfFileName, 'rb')
pdfread = p2.PdfFileReader(pdfFile)
pageinfo = pdfread.getPage(0)
rawInfo = pageinfo.extractText().split('\n')
row = 0
column = 0
workbook = xlsxwriter.Workbook('Workbook_Name.xlsx')
worksheet = workbook.add_worksheet('Sheet1')
for line in rawInfo:
worksheet.write(row, column, line)
row += 1
workbook.close()
推荐阅读
- python-3.x - 如何使用没有名称或 ID 的 selenium 向元素发送文本
- javascript - 如何从 fetch-node 函数返回字符串
- javascript - 使用 WKWebview 进行 iPhone swift 应用程序开发 - 如何在发生 javascript 事件时立即触发本地通知
- javascript - 试图分配给只读属性 | 反应原生
- c++ - b2Shape 等于 0xCDCDCDCD 并在创建夹具时抛出异常
- python - 在 Python 中读取 CSV 文件,然后附加到现有密钥
- python - 如何在 GoogleColab 上安装 auto-sklearn?
- java - Selenide - 为每个 Junit 5 测试创建新驱动程序
- command-line-interface - NativeScript CLI 基础知识:设置后没有 main-page.xml 或 app.css 文件
- javascript - 将列表 Ajax(Json) 传递给 Controller C# MVC