python - 提取 pdf 文件的元数据(尺寸或方向)
问题描述
给定一个 pdf 文件,有没有办法找到它的页面尺寸和方向(水平或垂直)等?pypdf2 库提供了检查页数的功能,但我如何提取其他信息?是否可以使用此链接查找有关文件的信息。创建日期、页数、标题等?或者其他任何可能的事情。
from PyPDF2 import PdfFileWriter, PdfFileReader
input1 = PdfFileReader(open("document1.pdf", "rb"))
# print how many pages input1 has:
print "document1.pdf has %d pages." % input1.getNumPages()
解决方案
您可以使用/Rotate
来获取页面的旋转。
pdf = PyPDF2.PdfFileReader(open('document1.pdf', 'rb'))
orientation = pdf.getPage(pagenumber).get('/Rotate')
它将产生一个以度为单位的值。尽管它可能对某些文档有用,但您应该注意,页面旋转本身并不表示方向。正如@mkl在评论中所贡献的那样。
至于其他元数据,您可以提取很多东西。您可以查看PyPDF2.pdf.DocumentInformation
所有方法。
推荐阅读
- angularjs - 量角器更新打破 E2E 测试
- c# - 在“数据库优先”中使用相关实体的问题
- php - 通过 parent_id 检索自定义帖子类型不起作用(Wordpress)
- ms-access - 记录已删除 - MS Access
- c# - 根据选定的下拉列表过滤项目
- python - 替换熊猫数据框中列中列表内的项目?
- php - 无法将 jQuery 的 SQL AJAX 调用结果显示到 HTML
- azure - Azure Devops + JMeter - 总是生成 html 报告?
- postgresql - 查看 GCP Postgres SQL 实例的二进制日志
- java - 从值中删除完整对象