r - 无法使用 Xpath (rvest) 选择标签的 href
问题描述
我正在用 R 中的包抓取https://ic.gc.ca/eic/site/bsf-osb.nsf/eng/h_br02281.htmlrvest
。我想获取与公司名称关联的超链接。这部分 html 代码如下所示:
html
我的代码如下所示:
library(rvest)
library(dplyr)
url = "https://ic.gc.ca/eic/site/bsf-osb.nsf/eng/h_br02281.html"
ccaa = read_html(url)
links = ccaa %>%
html_nodes("body") %>%
xml_find_all("//td[1]//a[@href]") %>%
html_text()
但这只是返回公司/案例的名称,而不是它们关联的链接。我怎样才能得到这些链接?这样做的最终目标是将这些链接放入一个数据框(连同其他信息),该数据框将呈现在一个闪亮的数据表中。然后,当用户对特定的破产案件感兴趣时,他们可以点击链接查看更多信息。
我对 R 有点陌生,并询问有关堆栈溢出的问题,所以如果您需要更多信息,请告诉我。
解决方案
替换html_text
为html_attr('href')
。