python - 使用 Selenium 和 Python 进行网络抓取时出现问题
问题描述
我正在尝试抓取这个网站
https://maroof.sa/BusinessType/BusinessesByTypeList?bid=14&sortProperty=BestRating&DESC=True 有一个按钮,点击后可以加载更多内容,它会显示更多内容而不改变URL 我做了一段代码来加载所有首先提取内容然后提取我需要的数据的所有 URL 然后转到每个链接并抓取数据
url = "https://maroof.sa/BusinessType/BusinessesByTypeList?bid=26&sortProperty=BestRating&DESC=True"
driver = webdriver.Chrome()
driver.get(url)
# button = driver.find_element_by_xpath('//*[@id="loadMore"]/button')
num = 1
while num <= 507:
sleep(4)
button = WebDriverWait(driver, 50).until(EC.element_to_be_clickable((By.XPATH, '//*[@id="loadMore"]/button')))
button.click()
print(num)
num += 1
links = [l.get_attribute('href') for l in WebDriverWait(driver, 40).until(EC.visibility_of_all_elements_located((By.XPATH, '//*[@id="list"]/a')))]
它似乎可以工作,但有时它不会单击加载内容的按钮,它会意外单击其他内容并出错,我必须重新开始你能帮我吗?
解决方案
要抓取网站单击按钮以加载更多内容,您需要诱导WebDriverWait,element_to_be_clickable()
您可以使用以下 定位器策略:
from selenium import webdriver
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as EC
options = webdriver.ChromeOptions()
options.add_argument("start-maximized")
options.add_experimental_option("excludeSwitches", ["enable-automation"])
options.add_experimental_option('useAutomationExtension', False)
driver = webdriver.Chrome(options=options, executable_path=r'C:\WebDrivers\chromedriver.exe')
driver.get('https://maroof.sa/BusinessType/BusinessesByTypeList?bid=26&sortProperty=BestRating&DESC=True')
while True:
try:
driver.execute_script("return arguments[0].scrollIntoView(true);", WebDriverWait(driver, 5).until(EC.visibility_of_element_located((By.XPATH, "//button[@class='btn btn-primary']"))))
WebDriverWait(driver, 20).until(EC.element_to_be_clickable((By.XPATH, "//button[@class='btn btn-primary']"))).click()
except TimeoutException:
break
print([l.get_attribute('href') for l in WebDriverWait(driver, 10).until(EC.visibility_of_all_elements_located((By.XPATH, '//*[@id="list"]/a')))])
driver.quit()
推荐阅读
- mysql - 如何通过linux shell脚本执行sql命令?
- ruby-on-rails - 如何在 ruby on rails 中使用带有 ajax 的地理编码器
- reactjs - 如何反应日期
- excel - Excel:在单元格或行之间创建关系
- ios - 如何在 podfile 中获取 git 分支?
- python - 将 pandas read_csv 调用传递给另一个带有命名参数的函数
- java - 如何使用 Selenium WebDriver 关闭 Modal?
- azure-active-directory - 如何从 Active Directory 访问令牌中获取刷新令牌。?
- html - 减少表中调用类/函数的次数
- git - 如何在 git-p4 中删除未搁置的分支