r - 网页抓取导向器部分 IMDB 在 r
问题描述
我正在尝试从 IMDB 网站https://www.imdb.com/list/ls041125816/抓取数据,我正在尝试使用以下命令获取董事姓名:html_nodes("p.text-mutated + a")并且还尝试了 html_nodes(".text-mutated + p a") 但两者都不起作用
请注意,这是我第一次进行网络抓取
您的帮助将不胜感激
谢谢 !
解决方案
您的 CSS 选择器不匹配任何内容。此代码为您提供董事:
library(rvest)
url <- "https://www.imdb.com/list/ls041125816/"
webpage <- read_html(url)
directors_data_html <- html_nodes(webpage,".text-small:nth-child(6)")
directors_data <- html_text(directors_data_html)
directors <- directors_data %>%
str_split("\\|") %>%
map(., 1) %>%
unlist()
directors %>%
tibble("directors" = .) %>%
filter(str_detect(directors,"Director"))
推荐阅读
- javascript - 来自另一个文件的嵌套函数不访问函数内的变量
- php - 执行后如何知道 file() 请求的状态
- java - 如何提高 Spark 性能?
- python - matplotlib 数据显示在两个单独的图上
- angular - 使用 angular 8 和 web api2 的 CORS 起源错误
- vue.js - 如何在axios请求中传递标头?
- c# - 随着 WPF 应用程序导航的增加内存分配
- android - 用于 Android Studio 的 Nokia-2.2 USB 驱动程序
- python - 重载 operator() 在 Cython 中失败
- flutter - 如何在我的颤振应用中添加布料尺寸选择器?