r - httr 调用中的未定义错误。httr 输出:接收失败:连接已重置
问题描述
我正在尝试抓取这个网站:www.oddsportal.com。这是我在 R 中的代码:
library(wdman)
library(RSelenium)
library(rvest)
library(data.table)
pjs <- wdman::phantomjs(port=8912L)
eCap <- list(phantomjs.page.settings.userAgent
= "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:29.0) Gecko/20120101 Firefox/29.0", phantomjs.page.settings.loadImages = FALSE, phantomjs.phantom.cookiesEnabled = FALSE, phantomjs.phantom.javascriptEnabled = TRUE)
remDr<-remoteDriver(port=8912L, browser="phantomjs", extraCapabilities = eCap)
remDr$open()
#login form
remDr$navigate("https://www.oddsportal.com/login")
remDr$findElement('name', 'login-submit')$clickElement()
remDr$findElement(using = 'css selector', "#login-username1")$sendKeysToElement(list("*****"))
remDr$findElement(using = 'css selector', "#login-password1")$sendKeysToElement(list("*****"))
remDr$findElement(using = 'css selector', '#col-content > div:nth-child(3) > div > form > div:nth-child(3) > button')$clickElement()
# loop through 10 000 urls and save page source to file[i]
while(i<=10000){
remDr$navigate(DT$links[i])
file[i]<-remDr$getPageSource()[[1]]
i<-i+1
}
在大约 100-200 次循环之后,它每次都会失败并给我这个错误:
Error in checkError(res) :
Undefined error in httr call. httr output: Recv failure: Connection was reset
你能帮帮我吗?什么可能导致此错误?谢谢你。
解决方案
推荐阅读
- algorithm - 查找单链表的第 k 个最后一个元素:答案解释
- javascript - 与 JavaScript 中的变量赋值一样,一次性为一个对象分配多个值
- webgl - 动态收缩缓冲区
- html - 如果 Markdown 是 HTML 的超集,那为什么它不能做 HTML 能做的所有事情呢?
- tensorflow - 将预训练模型生成的预测输出解码为人类可读的标签
- docker - 在 Jenkins docker 容器中使用 fabric8 docker-maven-plugin
- matlab - MATLAB - 如果在类构造函数中创建子图,则轴句柄将被删除
- python - 如何使用 python smtplib 在邮件中发送附加的图像文件和嵌入到 html 电子邮件正文的相同图像?
- python - 如何从具有多行的 2 个不同数据集创建可视化?
- node.js - 带有 Twit 的 Node.js - AND 运算符问题