r - pdftools::pdf_text 无法识别所有空格
问题描述
我正在使用 R 并从 pdf 文件中提取冬季两项结果。作为这个过程的开始,我一直在使用 pdf_text 函数(来自 pdftools 包),它在大多数情况下都可以正常工作。但是,有些文件中的一些空格似乎消失了。这是一个例子:
# install.packages("pdftools")
library(pdftools)
test<-pdf_text("https://ibu.blob.core.windows.net/docs/2021/BT/SWRL/CP01/SMIN/C77A_v1.pdf")
test[[1]]
pdf 文件的摘录显示表现良好(绿色)和表现不佳(红色)的斑点。
绿色的转换为“70 0”,但红色的转换为“70”。可以通过将它们复制并粘贴到文本编辑器来检查它们是否有空间。快速浏览一下,当第一个数字(拍摄时间排名)只有一位时,就会出现问题。
什么可能导致这种行为,是否有简单的解决方法?
解决方案
推荐阅读
- python - 在点位置的多个时间步长上提取 netCDF 变量的值
- neo4j - 节点已删除,无法用于创建关系
- sql - 具有恒定时间的 Oracle SQL sysdate
- vba - 从一组 OptionGroup 构建一个 SQL 字符串
- javascript - 由 Electron Builder 生成的二进制文件的操作系统特定目录
- amazon-ec2 - AWS Lambda EC2-Instances 客户端超时错误
- php - 如何遍历自定义分类类别
- android - Android Room 报错 ProductDatabase_Impl 不是抽象的,没有覆盖 ProductDatabase 中的抽象方法 getProductDao()
- java - CrudRepository 接口 - 找不到 bean
- google-cloud-platform - 在 GCP 上配置 HTTPS 负载平衡器时,后端服务中的几个 VM 实例运行状况不佳