首页 > 解决方案 > (Python, Selenium Chromedriver) 循环遍历 txt 文件中的多个 url 以验证实时网页上的每个脚本标签

问题描述

我有一个 txt 文件,其中包含一个 URL 列表 (sitemap.txt),我想使用该列表来自动化一个脚本,该脚本通过每个 URL 来验证一个元素(一个脚本标签)是否存在。解决这个问题的最佳方法是什么?

from selenium import webdriver
#-*- coding: utf-8 -*-
import re
import urlparse

def findnth(haystack, needle, n):
    parts= haystack.split(needle, n+1)
    if len(parts)<=n+1:
        return -1
    return len(haystack)-len(parts[-1])-len(needle)

with open("sitemap.txt") as file:
        for line in file:
            substring = "url"
            if substring in line:
                start = line.find('h')
                end = findnth(line, "<", 2)
                print(line[start:end])
            # #path = urlparse(line)
            # urls = re.findall('https?://(?:[-\\w.]|(?:%[\\da-fA-F]{2}))+', line)
            # #print(line)

            # line.find('h')
            # start = line.find('h')
            # end = line.rfind('/')
            # #print(line[, start[, end]])
            # print(line)

for i in line:
    driver = webdriver.Chrome()
    driver.get(i)
    source = driver.find_element_by_xpath("//script[@src='/scripts/file.js']");

标签: pythonseleniumselenium-webdriverautomationselenium-chromedriver

解决方案


推荐阅读