首页 > 解决方案 > Web Scraping - 在安全站点上使用功能 (rvest)

问题描述

我正在尝试抓取一个需要在获得结果之前提交表单的网站。我很难理解它是如何工作的,更不用说语法和其他东西了。

我一直在看其他人发布的代码,很多人使用rvest或RSelenium。我似乎无法让我的表单正确提交,并且不确定一旦提交后如何将结果提取到 R 中。

现在,我无法分享我正在使用的特定网站,但我找到了一个类似物:

https://gapines.org/eg/opac/advanced

例如,我可能需要在“项目类型”下选择“书籍”,在“项目形式”下选择“盲文”。提交表单后,我需要捕获该结果页面。

从其他人的代码中复制,我有以下内容:

library(rvest)
url <- "https://gapines.org/eg/opac/advanced"
my_session <- html_session(url) #Create a persistant session
unfilled_forms <- html_form(my_session)
login_form <- unfilled_forms[[2]] # select the form you need to fill
filled_form <- set_values(login_form,'fi:item_type'="Books",'fi:item_form'="Braille")
login_session <- submit_form(my_session,filled_form)

当我运行 submit_form() 时,它显示“使用 'NULL' 提交”。

提交后,我也想提取结果,但不知道如何开始。

提前致谢。

标签: cssr

解决方案


推荐阅读