首页 > 解决方案 > 如何提取 PDF 年度报告的叙述部分以进行文本分析?

问题描述

我想比较使用 FOG 指数作为我学士论文一部分的保险公司的 SFCR 报告和 IFRS 报告。报告以 PDF 格式提供。

我想使用 Perl 中的 Fathom 包,但为此我需要 txt 格式的财务报表的叙述区域。你知道这如何在我不必手动复制所有内容的情况下工作吗?

提前致谢!

标签: perl

解决方案


Python 模块pdfminer可用于提取所有文本(也包括图形和表格中的文本):

$ pip install pdfminer
$ qpdf --decrypt --password='' report.pdf report2.pdf
$ pdf2txt.py -o report2.txt report2.pdf

这会将提取的文本保存到report2.txt. 请注意,我使用了示例 PDF 文件 aegon-integrated-annual-report-2019.pdf。这个文件被证明是加密的并且pdf2txt.py拒绝处理它,但幸运qpdf的是能够解密它,如上图所示。


推荐阅读