html - 如何使用 RVEST 抓取不同的 HTML 文件并将其存储到 Excel 文件表中?
问题描述
我不精通 R,并试图为我的问题拼凑出一个解决方案。我有大约 800 个 html 文件,我想访问每个文件中的每个元素。
我已经弄清楚如何使用网站网址单独执行此操作
library(rvest)
scraping_wiki <- read_html("example.com")
scraping_wiki %>%
html_nodes("h2")
输出打印到我的终端。顺便说一句,我正在使用终端 R 环境,因为我不知道如何运行 R 程序。我想知道是否有任何功能可以让我打开多个 .html 文件,遍历每个 H2 标签,然后将它们放入 excel 文件中?最好是一个用于 html 文件的列,另一个用于所有 H2 数据的列?我对 R 非常陌生,因为它不熟悉,所以无法理解其中的一些功能。任何帮助都很棒:)
解决方案
好吧,如果您发布一些实际代码来显示您实际想要做什么,那将会很有帮助。这是一个简单且通用的示例,说明如何执行此操作。
library(rvest) #v.0.2.0.9000
url <- "https://en.wikipedia.org/wiki/United_States_at_the_2012_Summer_Olympics"
tb <- read_html(url) %>% html_node("table.wikitable:nth-child(2)") %>% html_table(fill=TRUE)
library(xlsx)
write.xlsx(tb, "C:/mydata.xlsx")
推荐阅读
- python - Python / Django:在模型类中进行查找/数据库查询
- notepad++ - 需要替换列范围内的字符
- java - 如何在我的代码中不使用超过 3 个不同的数字文字?
- python - openpyxl - 默认模板列为文本
- ruby-on-rails - 无法访问 has_one 关系中的道具
- python - 为什么 Heroku 不喜欢我的文件夹结构?
- git - 执行 git stash --include-untracked 时丢失跟踪文件
- python - 获取“系列”对象是可变的,因此在运行 pandas.get_dummies 时它们不能被散列错误
- python - tensorflow boolean_mask 逆?
- c# - Xamarin.Forms 使用现有对象列表中的 ListView