perl - 如何提取 PDF 年度报告的叙述部分以进行文本分析?
问题描述
我想比较使用 FOG 指数作为我学士论文一部分的保险公司的 SFCR 报告和 IFRS 报告。报告以 PDF 格式提供。
我想使用 Perl 中的 Fathom 包,但为此我需要 txt 格式的财务报表的叙述区域。你知道这如何在我不必手动复制所有内容的情况下工作吗?
提前致谢!
解决方案
Python 模块pdfminer可用于提取所有文本(也包括图形和表格中的文本):
$ pip install pdfminer
$ qpdf --decrypt --password='' report.pdf report2.pdf
$ pdf2txt.py -o report2.txt report2.pdf
这会将提取的文本保存到report2.txt
. 请注意,我使用了示例 PDF 文件 aegon-integrated-annual-report-2019.pdf
。这个文件被证明是加密的并且pdf2txt.py
拒绝处理它,但幸运qpdf
的是能够解密它,如上图所示。
推荐阅读
- powershell - 如何使用 Powershell 在 Azure AD 应用程序中为隐式流启用访问令牌
- sql - 通过生成查询从 DataFrame 中获取数据并插入到 SQL 表中的多行中
- ios - 如何在 iOS 13 中更改状态栏 Alpha?
- reactjs - Mobx 如何等到 Promise
完成然后运行不同的功能 - javascript - C# ToDictionary 的 JavaScript 等价物
- powershell - 我在创建唯一目录和文件时做错了什么,同时使用 PowerShell 验证目录和文件名是唯一的?
- node.js - 重新启动 EC2 现在我无法调用我的快速 API
- python-3.x - 如何舍入小数类型
- xaml - Xamarin 表单样式 - 支持多种目标类型
- c++ - 如何将线条颜色与顶点颜色分开?