首页 > 解决方案 > 使用 RCurl 和 XML 在 R 中进行 Web 抓取 - 使用 xpathapply

问题描述

我正在尝试从以下网页中抓取所有结果 URL:

http://www.attheraces.com/results/25-Jul-2018

基本上,我希望获得一个包含以下链接的数据框:

http://www.attheraces.com/racecard/Bath/25-July-2018/1400
http://www.attheraces.com/racecard/Bath/25-July-2018/1430
http://www.attheraces.com/racecard/Sandown/25-July-2018/1750

等(我认为英国和爱尔兰有 42 多个)。

我已经开始使用 RCurl 和 XML 库,如下所示:

library(RCurl)
library(XML)
url = "http://www.attheraces.com/results/25-Jul-2018"
txt = getURL(url)
txt = htmlTreeParse(txt, asText = TRUE, useInternalNodes = TRUE)

在 HTML 中,我可以看到我想要的所有 url 都在描述符中:

li class="meeting-race"

但是,现在我不确定如何使用 xpathApply 函数将所有 URL 一次性提取到数据框中?

非常感谢。

标签: xmlweb-scrapingrcurl

解决方案


推荐阅读