首页 > 解决方案 > 如何在 R 中使用 purrr 和 rvest 从网页中抓取成绩单?

问题描述

我正在尝试提取此网页上可用的所有成绩单。我已经能够使用以下代码成功提取演讲的日期和标题R

library(purr)
library(rvest)

url_kremlin <- "http://kremlin.ru/events/president/transcripts/page/"

map(1:10, safely(function(i) {
  pg <- read_html(paste0(url_kremlin, i))
  
  data.frame(date = html_text(html_nodes(pg, ".dt-published")),
             title = html_text(html_nodes(pg, ".p-name")),
             link = html_nodes(pg, ".p-name") %>%
             html_node("p") %>% html_attr("href"))
})) -> kremlin_df

不过,我无法提取成绩单的文本。有谁知道我做错了什么?我应该使用什么来成功提取成绩单?

编辑:当我运行上面的代码时,这就是我得到的:在此处输入图像描述. 应该包含演讲的link文本(或者至少这是我希望它包含的内容)。

标签: rweb-scrapingpurrrrvest

解决方案


推荐阅读