首页 > 解决方案 > 我想抓取这个网站 https://hdyc.neis-one.org/ 它有两页登录验证

问题描述

库('XML') 库('rvest')

登录<-" https://www.openstreetmap.org/login?cookie_test=true&referer=%2Foauth%2Fauthorize%3Foauth_callback%3Dhttps%253A%252F%252Fhdyc.neis-one.org%252Fland.html%26oauth_token%3DDfkqaWSgSDkhReTb75sOaq22QO6f6txdxF "

pgsession<-html_session(登录)

pgform <- html_form(pgsession)[[1]]

fill_form<-set_values(pgform, username="********", password="**********") submit_form(pgsession,filled_form)

html_object <- read_html(" https://hdyc.neis-one.org/ ?**********")

标签: pythonweb-scrapinglogin

解决方案


尝试 dockerize 你的 selenium 代码,以便它可以在你想要的任何地方运行。这里有一些可能会有所帮助的事情。

  1. 这样创建一个 Dockerfile 。

  2. 在初始化驱动程序时添加这些代码行。

    chrome_options = webdriver.ChromeOptions()
    chrome_options.add_argument('--no-sandbox')
    chrome_options.add_argument('--headless')
    chrome_options.add_argument('--disable-gpu')
    driver = webdriver.Chrome(chrome_options=chrome_options)
    

推荐阅读