首页 > 解决方案 > 将 PDF 文件导入 R 并组织数据

问题描述

我对 R 很陌生,所以我非常感谢一些帮助!我需要将 PDF 文档导入 R 并组织它以进行数据操作。

PDF 文件:图 1

这就是我所拥有的:

library(pdftools)
field_data <- pdf_text("Q2 - WPA_points (Field).pdf") %>%
readr::read_table()

*第一个问题,除了“read_table”之外,还有更好的方法吗?这给了我 122 个 obs 的 1 个变量,但我真的只需要底部有 7 个变量的 117 个 obs。(当我使用 read_table2() 它给了我 7 个变量,但它似乎删除了一些单元格)

继续前进,使用 read_table,我删除了前 5 行(不必要的)并取出了列名,所以它看起来像这样图 2

这就是我所做的:

library(tidyr)
library(tidyverse)
field_data <- field_data[-c(1:5),]
colnames(field_data) <- NULL

这就是我卡住的地方。我想要:

  1. 将第一行 "Event" "Class" "a" 等转换为列名。
  2. 将“事件”列下具有“空白”的行向右移动
  3. 用之前的事件名称填写空格

最终结果应如下所示: 图 3

我希望我很清楚,非常感谢您的帮助!

标签: r

解决方案


推荐阅读