r - 抓取excel文件
问题描述
我正在尝试下载位于此网页上多个链接后面的一系列 excel 文件:https ://www.grants.gov.au/reports/gaweeklyexport
当我按照在线教程进行操作时,我能够获得列表中第一个链接的文本,但仅此而已。任何人都可以帮助我编写将列出每个地址到 excel 文件的代码吗?
例如; 第一个链接的成功如下所示:https ://www.grants.gov.au/Reports/GaWeeklyExportDownload?GaWeeklyExportUuid=0db183a2-11c6-42f8-bf52-379aafe0d21b
但我还需要该列表中的其他链接。
我的尝试,只找到列表中的第一项:
library(tidyverse)
library(rvest)
url <- "https://www.grants.gov.au/reports/gaweeklyexport"
webpage <- read_html(url)
html_text(html_node(webpage, '.u'))
解决方案
您将希望使用html_nodes()
而不是html_node()
获取所有匹配的元素。
您可能还想使用html_attr()
而不是html_text()
获取 URL 而不是链接中的文本,如下所示:
html_attr(html_nodes(webpage, '.u'), "href")
推荐阅读
- php - 我无法在使用 Laravel 护照 9 的客户端凭据授予令牌测试中检索持有者令牌
- javascript - 散列整个文件夹而不是单个文件
- apache-kafka - 发送一批消息后是否应该关闭KafkaSender?
- sql - VB6关闭对象时不允许操作
- sorting - 使用数字排序列表,其中特定范围应在最后
- stream - 大规模本地网络
- java - 在 Eclipse 中安装 Windows Builder
- video-streaming - Exoplayer 更改 hls 的重定向设置
- qt - udp 绑定/连接但未收到数据报
- android - 使用 qml 在 android 应用程序中显示 pdf 文件 - 在 windows 上为 android 构建 poppler