首页 > 解决方案 > 如何使用 RVEST 抓取不同的 HTML 文件并将其存储到 Excel 文件表中?

问题描述

我不精通 R,并试图为我的问题拼凑出一个解决方案。我有大约 800 个 html 文件,我想访问每个文件中的每个元素。

我已经弄清楚如何使用网站网址单独执行此操作

library(rvest)

scraping_wiki <- read_html("example.com")

scraping_wiki %>%
        html_nodes("h2")

输出打印到我的终端。顺便说一句,我正在使用终端 R 环境,因为我不知道如何运行 R 程序。我想知道是否有任何功能可以让我打开多个 .html 文件,遍历每个 H2 标签,然后将它们放入 excel 文件中?最好是一个用于 html 文件的列,另一个用于所有 H2 数据的列?我对 R 非常陌生,因为它不熟悉,所以无法理解其中的一些功能。任何帮助都很棒:)

标签: htmlrexcelweb-scrapingrvest

解决方案


好吧,如果您发布一些实际代码来显示您实际想要做什么,那将会很有帮助。这是一个简单且通用的示例,说明如何执行此操作。

library(rvest) #v.0.2.0.9000
url <- "https://en.wikipedia.org/wiki/United_States_at_the_2012_Summer_Olympics" 
tb <- read_html(url) %>% html_node("table.wikitable:nth-child(2)") %>% html_table(fill=TRUE)


library(xlsx)
write.xlsx(tb, "C:/mydata.xlsx")

推荐阅读