首页 > 解决方案 > 一个特定网站的 R 中 curl 中的 Webscraping 错误

问题描述

我正在尝试使用 rvest 包抓取网站。无论我尝试过什么,我在启动 html_session 时仍然存在问题。

library(rvest)
library(httr)

session <- html_session("https://www.gpw.pl/spolki")

session <- httr::GET("https://www.gpw.pl/spolki")

对于我收到的两个:

Error in curl::curl_fetch_memory(url, handle = handle) : 
 Failure when receiving data from the peer

这是为什么?这个网站是否试图阻止我抓取?

编辑:我无法在他们的网站上找到任何明确声明他们不允许抓取的内容。是否有不同的方法可以让我检查本网站是否允许使用蜘蛛?

如果有人对我应该如何处理这个问题有任何有趣的想法,那么请不要犹豫,在这个问题下面分享它们:)

标签: rweb-scrapingrvesthttr

解决方案


推荐阅读