r - Rcrawler 包的 Xpathpattern
问题描述
我使用 Rcrawler 来提取语音链接,如下所示:
speech_links = Rcrawler::LinkExtractor("https://www.federalreserve.gov/newsevents/speeches.htm", urlregexfilter = "https://www.federalreserve.gov/newsevents/speech/")
获取其中一个链接(年份)并在该年份获得所有相同的语音链接
speech_links_2020 = Rcrawler::LinkExtractor(speech_links$InternalLinks[1])
这给出了当年的所有链接现在我被困在的是如何检索演讲标题、演讲者、时间和其他属性
我知道用于标题的代码是:
Rcrawler::ContentScraper(speech_links_2020$InternalLinks[2], XpathPatterns = "//head/title")
但是,对于其他属性、扬声器、时间和内容,我不确定如何指定 XpathPatterns,因为我不熟悉 HTML。
有人可以让我知道吗?
谢谢
解决方案
用演讲解析 json 可能更容易
https://www.federalreserve.gov/json/ne-speeches.json
演讲者 ID 在这里: https ://www.federalreserve.gov/json/nespeakers.json
library(httr)
library(tidyverse)
json <- GET("https://www.federalreserve.gov/json/ne-speeches.json")
speeches <- content(json) %>%
bind_rows()
推荐阅读
- javascript - 由 Google Apps 脚本提供的 HTML/JS
- java - 需要解释在 Codility Peaks 问题中失败的一个测试用例
- r - 如何为因子变量生成具有一致颜色的ggplot
- python - 如何找到随机生成的位置旁边的位置
- python - AttributeError:模块“keras”没有属性“输入”
- python - 如何将信号投射到新的范围内?
- java - 如何杀死正在从 CentOS 中的目录运行的进程?
- typescript - 如何将 service worker 从 JS 迁移到 TS
- javascript - twilio 视频通话 JS/.Net MVC
- node.js - 从后端显示请求结果到 html (MEAN)