首页 > 解决方案 > 如何以编程方式将书签添加到多个 PDF 文件

问题描述

我收集了大约 300 个 PDF 文件,每个文件代表一个存档期刊。这些问题平均每个大约 60 页。

我有一个电子表格,其中详细说明了每个问题/PDF 中文章的起始页和标题,我想将其作为书签添加到各个 PDF 文件中。电子表格中有大约 9000 行。处理后,300 个问题中的每个问题(每个问题都是一个单独的 PDF 文件)应包含其各自文章的适当书签。

我已经用 Python 编写了一些简单的代码,使用 PyPDF2 和 Pandas,它将书签列表插入到单个 PDF 中。

我应该能够使用 pandas 将电子表格数据带入我的程序,按问题文件名选择第一篇文章,将关联的书签添加到 PDF 文件并迭代到下一个文件。

我可以让熊猫按文件名堆叠书签,但我似乎无法选择书签和页面数据,或遍历文件名。

按文件名对 pandas 进行分组的示例代码:

import pandas as pd
import numpy as np

#load the pdf filename and bookmark list
dfPdfBmk = pd.read_csv('bookmarkstest.csv')

marksGroupedbyFile = dfPdfBmk.reset_index().groupby(['filename','Subject']).sum()
print (marksGroupedbyFile.head())

我正在苦苦挣扎的地方是弄清楚如何选择文件名、书签条目和页面数据......

标签: pythonpandaspdf

解决方案


推荐阅读