首页 > 解决方案 > 尽管 IP 和用户代理轮换抓取,但仍被禁止

问题描述

即使我在 Selenium Headless Chrome 中使用代理和用户代理轮换(我已经通过https://free-proxy-list.net/和 TOR 提取了 ip,并对其进行了测试,https://httpbin.org/它显示了预期的代理 ip 和用户代理,所以我知道这应该可以工作),在 Glassdoor 的主页“ https://www.glassdoor.com/index.htm ”上尝试使用新 IP 和用户代理时,我仍然会被阻止。

作为上下文:

这是 Chrome 设置:

chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument("--no-sandbox")
chrome_options.add_argument("--headless")
chrome_options.add_argument("--disable-gpu")
chrome_options.add_argument("--disable-translate")
chrome_options.add_argument(f"--proxy-server={ip}")
chrome_options.add_argument(f"user-agent=[{random_user_agent()}]")

我的理论是 Glassdoor 正在以某种方式测试我的浏览器,它表明我正在使用代理,或者我有一个设置表明它是一个自动浏览器。关于正在发生的事情有什么想法吗?

编辑:我已经检查了 Selenium 被检测到的可能性,但现实是,即使我将 Selenium 与免费代理/TOR/VPN 一起使用,使用 VPN 进行抓取也没有问题,因此这意味着问题必须是在使用代理与 VPN 时,也许有人可以帮助我了解这是如何发生的。

标签: pythonseleniumdockergoogle-chromeweb-scraping

解决方案


我认为这与您的 IP 地址或浏览器代理无关。您可能会被阻止,因为该站点正试图阻止抓取。请参阅网站可以检测到您何时将 selenium 与 chromedriver 一起使用?


推荐阅读