python - 硒镀铬每隔一段时间挂一次
问题描述
我的 selenium chrome 脚本每隔一次运行时都会挂起,并且仅在使用扩展程序运行时才会这样做,但是我不知道为什么。
我最近遇到了一个让我感到非常困惑的问题,而且似乎无处不在。我有一个通过使用代理服务器的 Chrome 运行的 python selenium 脚本,因为它使用用户名/密码组合进行身份验证,而不仅仅是通过 IP 进行身份验证我已经制作了驱动程序在开始新会话之前加载的 chrome 扩展。
下面是脚本:
import selenium
import selenium.webdriver.common.proxy
import selenium.webdriver.common.desired_capabilities
chrome_options = selenium.webdriver.ChromeOptions()
chrome_options.add_argument("disable-infobars")
chrome_options.add_argument('--ignore-certificate-errors')
chrome_options.add_argument('--ignore-ssl-errors')
prefs = {"profile.default_content_setting_values.notifications" : 2, "profile.managed_default_content_settings.images": 2, "profile.default_content_settings.images":2, 'disk-cache-size': 4096 }
chrome_options.add_experimental_option("prefs",prefs)
add_log_prefs = selenium.webdriver.common.desired_capabilities.DesiredCapabilities.CHROME
add_log_prefs['loggingPrefs'] = { 'browser':'ALL' }
chrome_options.add_argument('--load-extension='+proxy_extension_path)
driver = selenium.webdriver.Chrome(chrome_driver_path,
options=chrome_options,
desired_capabilities=add_log_prefs)
driver.set_window_size(window_size_w, window_size_h)
driver.get('https://www.google.com/')
下面是扩展:
清单.json:
{
"version": "1.0.0",
"manifest_version": 1,
"name": "Chrome Proxy",
"permissions": [
"proxy",
"tabs",
"unlimitedStorage",
"storage",
"<all_urls>",
"webRequest",
"webRequestBlocking"
],
"background": {
"scripts": ["background.js"]
},
"minimum_chrome_version":"1.0.0"
}
背景.js:
var config = {
mode: "fixed_servers",
rules: {
singleProxy: {
scheme: "http",
host: "HOST",
port: parseInt(PORT)
},
bypassList: ["localhost"]
}
};
chrome.proxy.settings.set({value: config, scope: "regular"}, function() {});
function callbackFn(details) {
return {
authCredentials: {
username: "USERNAME",
password: "PASSWORD"
}
};
}
chrome.webRequest.onAuthRequired.addListener(
callbackFn,
{urls: ["<all_urls>"]},
['blocking']
);
我遇到的问题是,当我启动脚本并尝试通过获取例如 driver.get(“ https://www.google.com/ ”)加载网站时,它会在我每隔一次启动时导航到该网站程序和每隔一段时间就会超时。当它超时时,我可以自己手动进入并导航到该网站,所以它似乎只是挂在那里。
即使我重新运行脚本并清理它以查找任何已加载的变量等,也会发生这种情况,但它每隔一次发生的事实表明,脚本超时后会以某种方式清理一些剩余的设置,并且然后在它设法导航到网址后重新定位。
编辑:此外,我尝试添加配置文件并对其进行更改,但这也无助于我的情况。我考虑过以不同的方式使用代理服务器,但除了扩展名之外,我找不到任何方法来使用带有密码/名称的代理服务器。
我完全不知所措,并且在这一点上已经连续几个小时解决这个问题,所以任何建议都将不胜感激。
解决方案
使用自定义 chrome 配置文件是解决此问题的解决方案之一。不要问我如何以及为什么 :-) 仍然需要对此进行调查。
但是现在,如果您想继续使用您的脚本,那么将以下行添加到您的 chrome 选项中。
options.add_argument(r"--user-data-dir=path\to\chrome\user data\any_new_profile_name")
# below is the sample
options.add_argument(r"--user-data-dir=C:\Users\xxxx\AppData\Local\Google\Chrome\User Data\ChromeAutoProfile")
您不必创建新的 chrome 配置文件,如果配置文件不存在,脚本将第一次创建该配置文件。
推荐阅读
- r - R Shiny模块化代码 - 按钮没有反应
- sqlite - 我注意到能够使用在线提供的代码在谷歌驱动器中备份 n 恢复 sqlite 数据库
- amazon-web-services - 如何从 GetOpenIdTokenForDeveloperIdentity 验证 AWS Cognito OpenID JWT?
- python - NumPy 1.20 中的数据类型 np.dtype(np.int32) 与 np.int32
- linux - 将整个 home/user1 目录复制到 Linux 上的 home/user2 目录 - Ubuntu16.04
- android - 如果 jcenter 中 android 库的所有者删除了该库,会发生什么?我下载图书馆的安卓应用程序
- flutter - 如何跟踪视口中的顶部项目以进行列表颤动
- apache-kafka - 有什么区别:kafka、filebeats 和 logstash?
- html - 尝试设置最大高度时出现 CSS3 问题:100vh;
- javascript - 在一行中居中对齐多个跨度