python - 我想抓取这个网站 https://hdyc.neis-one.org/ 它有两页登录验证
问题描述
库('XML') 库('rvest')
pgsession<-html_session(登录)
pgform <- html_form(pgsession)[[1]]
fill_form<-set_values(pgform, username="********", password="**********") submit_form(pgsession,filled_form)
html_object <- read_html(" https://hdyc.neis-one.org/ ?**********")
解决方案
尝试 dockerize 你的 selenium 代码,以便它可以在你想要的任何地方运行。这里有一些可能会有所帮助的事情。
像这样创建一个 Dockerfile 。
在初始化驱动程序时添加这些代码行。
chrome_options = webdriver.ChromeOptions() chrome_options.add_argument('--no-sandbox') chrome_options.add_argument('--headless') chrome_options.add_argument('--disable-gpu') driver = webdriver.Chrome(chrome_options=chrome_options)
推荐阅读
- css - 在 django 中格式化复选框
- javascript - JavaScript DOM:我如何告诉 JS 根据 json 数组中的值创建元素('p')?
- azure - 无法通过 ssh 连接到 Azure VM - 连接超时
- macos - 通过苹果脚本运行 sh 脚本会引发 command not found 错误
- gitlab - Gitlab CI超时手动作业
- c# - 测试发现器“NUnit3TestDiscoverer”加载测试时发生异常
- datatables - DataTables.net 从 CSV 导出中删除双引号
- database - SQL Loader 无法加载文件
- c# - IHTTPClientFactor 中的 NTLM 身份验证
- ruby-on-rails - 如何将我的 rails 自定义生成器连接到模型一?