首页 > 解决方案 > 有什么方法可以用 R 提取 pdf 表格整齐吗?

问题描述

我需要一个自动代码来提取 R 中的 pdf 表。

所以我搜索了网站,找到了 tabulizer 包。

我用

extract_tables(f2,pages = 25,guess=TRUE,encoding = 'UTF-8',method="stream")#f2 is pdf file name

我尝试了每种方法类型,但结果并不整洁。

有些列是混合的,有很多空白,你可以看到图像文件。

我想我会直接修改数据。但目的是使其自动化。所以需要通用方法。而且每个pdf文件都没有组织。有些表非常整齐,每条相关行都完美匹配,但其他表则不然。正如您在我的结果图像中看到的那样,在第 4 列中,数字混合在同一列中。其他列,数字是一一匹配的,我的意思是我想自动使列像pdf中的表格一样整齐。

是否有任何包装或某种方法可以使提取的表格整洁?

我的代码结果

PDF格式的表格

标签: rtidytabulizer

解决方案


推荐阅读