首页 > 解决方案 > 从 XML 抓取 R 网页

问题描述

我是网络抓取的新手。我正在尝试使用 XML 库在纽约联储储备网站上抓取以下 XML 文件

fedops <- xmlparse("https://markets.newyorkfed.org/api/ambs/all/results/details/search.sdmx.xml?startdate=03/02/2020&enddate=04/07/2020")

但后来我得到以下错误。我不知道如何在这里继续,它似乎是一个 xml 文件,但也许我应该使用 rvest 和 read_html?任何帮助都会很棒!提前致谢。

错误:XML 内容似乎不是 XML:'ddate=04/07/2020'

标签: rxmlweb-scrapingrvest

解决方案


推荐使用xml2XML:

library(xml2)
pg <- read_xml("https://markets.newyorkfed.org/api/ambs/all/results/details/search.sdmx.xml?startdate=03/02/2020&enddate=04/07/2020")
sections <- pg %>% xml_find_all("//n1:Section")

推荐阅读