首页 > 解决方案 > 网页抓取导向器部分 IMDB 在 r

问题描述

我正在尝试从 IMDB 网站https://www.imdb.com/list/ls041125816/抓取数据,我正在尝试使用以下命令获取董事姓名:html_nodes("p.text-mutated + a")并且还尝试了 html_nodes(".text-mutated + p a") 但两者都不起作用

请注意,这是我第一次进行网络抓取

您的帮助将不胜感激

谢谢 !

标签: rweb-scraping

解决方案


您的 CSS 选择器不匹配任何内容。此代码为您提供董事:

library(rvest)

url <- "https://www.imdb.com/list/ls041125816/"

webpage <- read_html(url)

directors_data_html <- html_nodes(webpage,".text-small:nth-child(6)")

directors_data <- html_text(directors_data_html)

directors <- directors_data %>% 
             str_split("\\|") %>% 
             map(., 1) %>% 
             unlist()


directors %>% 
  tibble("directors" = .) %>% 
  filter(str_detect(directors,"Director")) 

推荐阅读