html - 我正在尝试抓取 Moderna/pfizer 网站,以查看他们发布新闻的日期。R中的代码给出输出字符(0)而不是日期
问题描述
这是我为 pfizer 和 Moderna 运行的代码(使用的包:'rvest')
辉瑞:
scrape_url <-“http://www.pfizer.com/news”
网页 <- read_html(scrape_url)
pfizer_newsdates_html <- html_nodes(网页,'.rssDate')
pfizer_newsdates <- html_text(pfizer_newsdates_html)
负责人(辉瑞_新闻日期)
对于现代——
scrape_url2 <-“https://investors.modernatx.com/news-releases”
网页2 <- read_html(scrape_url)
Moderna_newsdates_html <- html_nodes(网页,'.nir-widget--news--date-time')
Moderna_newsdates <- html_text(moderna_newsdates_html)
头(moderna_newsdates)
解决方案
对于辉瑞,使用正确的类。对于 Moderna,需要使用 httr 作为用户代理标头
library(rvest)
library(magrittr)
library(httr)
library(stringr)
moderna_dates <- read_html(httr::GET('https://investors.modernatx.com/news-releases', add_headers("User-Agent" = "Mozilla/5.0"))) %>%
html_nodes('.nir-widget--news--date-time') %>% html_text() %>% str_squish()
pfizer_dates <- read_html('https://www.pfizer.com/news') %>%
html_nodes('.views-field-field-press-release-date') %>% html_text()
推荐阅读
- python - 使用 python + asyncio + websockets 推送 = 丢失消息
- dhall - `dhall format` 和 `dhall lint` 之间的区别
- python-3.x - Pandas 根据值乘法生成行
- spring-webflux - spring-boot-starter-webflux 是否包含 spring-boot-starter-web?
- angular - 微前端,使用 Angular 框架作为外部
- java - 如何使用 EWS Java 在 ItemAttachment 中获取附件
- ocaml - OCaml 中是否有检测类型的通用打印机?
- javascript - Vue Axios 检索列表中对象的响应 ID
- javascript - 记忆一个咖喱函数
- javascript - 隐藏内容时使 div 跳转更平滑