首页 > 解决方案 > pdftools::pdf_text 无法识别所有空格

问题描述

我正在使用 R 并从 pdf 文件中提取冬季两项结果。作为这个过程的开始,我一直在使用 pdf_text 函数(来自 pdftools 包),它在大多数情况下都可以正常工作。但是,有些文件中的一些空格似乎消失了。这是一个例子:

# install.packages("pdftools")
library(pdftools)

test<-pdf_text("https://ibu.blob.core.windows.net/docs/2021/BT/SWRL/CP01/SMIN/C77A_v1.pdf")
test[[1]]

pdf 文件的摘录显示表现良好(绿色)和表现不佳(红色)的斑点。

例子

绿色的转换为“70 0”,但红色的转换为“70”。可以通过将它们复制并粘贴到文本编辑器来检查它们是否有空间。快速浏览一下,当第一个数字(拍摄时间排名)只有一位时,就会出现问题。

什么可能导致这种行为,是否有简单的解决方法?

标签: rpdftools

解决方案


推荐阅读