首页 > 解决方案 > 如何遍历 100 个 Url 并使用 selenium 从每个 URL 中提取信息

问题描述

我有这个列表,最好从每个列表中提取一条信息并将此信息存储到另一个列表中 考虑想要的信息<a> hello world</a>

def pagination():
    pagination = range(1, 100)
    for p in pagination:
        page = f"https://www.xx.xx{p}"

标签: pythonpython-3.xseleniumbeautifulsoupautomation

解决方案


由于您正在处理单个主机。所以你必须session首先维护对象,这样你就可以避免被几乎所有站点防火墙阻止或标记为DDOS-Attack,你实际上维护相同的TCP套接字流而不保持打开/关闭/重新打开套接字。

之后,您可以遍历所需的分页参数并提取标题。

下面是一个例子。

import requests
from bs4 import BeautifulSoup


def main(url):
    with requests.Session() as req:
        for page in range(1, 11):
            r = req.get(url.format(page))
            soup = BeautifulSoup(r.content, 'html.parser')
            print(soup.title.text)


main("https://www.example.com/page={}")

推荐阅读