python - 如何以编程方式将书签添加到多个 PDF 文件
问题描述
我收集了大约 300 个 PDF 文件,每个文件代表一个存档期刊。这些问题平均每个大约 60 页。
我有一个电子表格,其中详细说明了每个问题/PDF 中文章的起始页和标题,我想将其作为书签添加到各个 PDF 文件中。电子表格中有大约 9000 行。处理后,300 个问题中的每个问题(每个问题都是一个单独的 PDF 文件)应包含其各自文章的适当书签。
我已经用 Python 编写了一些简单的代码,使用 PyPDF2 和 Pandas,它将书签列表插入到单个 PDF 中。
我应该能够使用 pandas 将电子表格数据带入我的程序,按问题文件名选择第一篇文章,将关联的书签添加到 PDF 文件并迭代到下一个文件。
我可以让熊猫按文件名堆叠书签,但我似乎无法选择书签和页面数据,或遍历文件名。
按文件名对 pandas 进行分组的示例代码:
import pandas as pd
import numpy as np
#load the pdf filename and bookmark list
dfPdfBmk = pd.read_csv('bookmarkstest.csv')
marksGroupedbyFile = dfPdfBmk.reset_index().groupby(['filename','Subject']).sum()
print (marksGroupedbyFile.head())
我正在苦苦挣扎的地方是弄清楚如何选择文件名、书签条目和页面数据......
解决方案
推荐阅读
- javascript - “any[]”类型的参数不能分配给“A”类型的参数。类型“any[]”中缺少属性“a”
- android - 使用 Android 分页库处理错误
- python - 将 Python 短形式 for 循环转换为长形式
- office365 - 有没有办法使用图形 API / sharepoint API 检测 office online 何时完成保存在 sharepoint 中?
- python - 使用 pandas 将连接的字符串拆分为单独的列
- javascript - 如何使用图像预览多次显示文件输入按钮?
- python - 基于共享节点在 Pandas 中查找邻居
- vue.js - 带有vue-routes的Vuejs无法读取未定义的属性“路径”
- python - 如何使用python从文本文件中获取特定值
- node.js - node.js(使用 ts-node)引用本地 TypeScript 模块导致构造函数的 TypeError