首页 > 解决方案 > 抓取excel文件

问题描述

我正在尝试下载位于此网页上多个链接后面的一系列 excel 文件:https ://www.grants.gov.au/reports/gaweeklyexport

当我按照在线教程进行操作时,我能够获得列表中第一个链接的文本,但仅此而已。任何人都可以帮助我编写将列出每个地址到 excel 文件的代码吗?

例如; 第一个链接的成功如下所示:https ://www.grants.gov.au/Reports/GaWeeklyExportDownload?GaWeeklyExportUuid=0db183a2-11c6-42f8-bf52-379aafe0d21b

但我还需要该列表中的其他链接。

我的尝试,只找到列表中的第一项:

library(tidyverse)
library(rvest)

url <- "https://www.grants.gov.au/reports/gaweeklyexport"

webpage <- read_html(url)

html_text(html_node(webpage, '.u'))

标签: rrvest

解决方案


您将希望使用html_nodes()而不是html_node()获取所有匹配的元素。

您可能还想使用html_attr()而不是html_text()获取 URL 而不是链接中的文本,如下所示:

html_attr(html_nodes(webpage, '.u'), "href")

推荐阅读