首页 > 解决方案 > Rcrawler 包的 Xpathpattern

问题描述

我使用 Rcrawler 来提取语音链接,如下所示:

speech_links = Rcrawler::LinkExtractor("https://www.federalreserve.gov/newsevents/speeches.htm", urlregexfilter = "https://www.federalreserve.gov/newsevents/speech/")

获取其中一个链接(年份)并在该年份获得所有相同的语音链接

speech_links_2020 = Rcrawler::LinkExtractor(speech_links$InternalLinks[1])

这给出了当年的所有链接现在我被困在的是如何检索演讲标题、演讲者、时间和其他属性

我知道用于标题的代码是:

Rcrawler::ContentScraper(speech_links_2020$InternalLinks[2], XpathPatterns = "//head/title")

但是,对于其他属性、扬声器、时间和内容,我不确定如何指定 XpathPatterns,因为我不熟悉 HTML。

有人可以让我知道吗?

谢谢

标签: r

解决方案


用演讲解析 json 可能更容易

https://www.federalreserve.gov/json/ne-speeches.json

演讲者 ID 在这里: https ://www.federalreserve.gov/json/nespeakers.json

library(httr)
library(tidyverse)

json <- GET("https://www.federalreserve.gov/json/ne-speeches.json")

speeches <- content(json) %>%
  bind_rows()

推荐阅读