r - 一个特定网站的 R 中 curl 中的 Webscraping 错误
问题描述
我正在尝试使用 rvest 包抓取网站。无论我尝试过什么,我在启动 html_session 时仍然存在问题。
library(rvest)
library(httr)
session <- html_session("https://www.gpw.pl/spolki")
session <- httr::GET("https://www.gpw.pl/spolki")
对于我收到的两个:
Error in curl::curl_fetch_memory(url, handle = handle) :
Failure when receiving data from the peer
这是为什么?这个网站是否试图阻止我抓取?
编辑:我无法在他们的网站上找到任何明确声明他们不允许抓取的内容。是否有不同的方法可以让我检查本网站是否允许使用蜘蛛?
如果有人对我应该如何处理这个问题有任何有趣的想法,那么请不要犹豫,在这个问题下面分享它们:)
解决方案
推荐阅读
- bash - 在发送 10 个时间戳之后,我将如何编写一个发送 10 个 ICMP 回显请求的脚本
- asp.net - 革命滑块背景视频未在 Safari 浏览器中播放
- react-native - 如何在不同的端口上运行 Expo Client?
- typescript - Firebase 功能在本地运行,但部署失败
- continuous-integration - 特拉维斯引起:java.net.UnknownHostException:配置
- javascript - 问题获取 ID(Angular Material - Firestore)
- php - 我正在为多个用户和每个用户的特定数据库制作一个项目。每当用户访问 url 时,特定的数据库就会连接(laravel)
- python - 使用 grid() 编译时出现在不同行上的标签和输入字段
- javascript - 在 react 或 vanilla js 中链接时如何从 URL 中删除 #
- python - 如何使用 Python 在日期列中输入缺失值?