python - 如何遍历 100 个 Url 并使用 selenium 从每个 URL 中提取信息
问题描述
我有这个列表,最好从每个列表中提取一条信息并将此信息存储到另一个列表中 考虑想要的信息<a> hello world</a>
def pagination():
pagination = range(1, 100)
for p in pagination:
page = f"https://www.xx.xx{p}"
解决方案
由于您正在处理单个主机。所以你必须session
首先维护对象,这样你就可以避免被几乎所有站点防火墙阻止或标记为DDOS-Attack
,你实际上维护相同的TCP
套接字流而不保持打开/关闭/重新打开套接字。
之后,您可以遍历所需的分页参数并提取标题。
下面是一个例子。
import requests
from bs4 import BeautifulSoup
def main(url):
with requests.Session() as req:
for page in range(1, 11):
r = req.get(url.format(page))
soup = BeautifulSoup(r.content, 'html.parser')
print(soup.title.text)
main("https://www.example.com/page={}")
推荐阅读
- python - 线性回归(sklearn)拟合数据形状误差
- git - 强制推送后如何下载特定的git树或提交
- javascript - JS 对象循环返回未定义,而 Lodash 映射返回值
- r - 如何根据R中的表信息计算数据表或框架中的列
- docker - 为什么 docker-compose 依赖于工作目录?
- python - 如何在不使用断言的情况下指定函数输入和输出的类型?
- css - CSS Grid 中不需要的水平滚动
- node.js - 如何在 Node.js 中下载和编写 jar 文件?
- javascript - 在 Qualtrics 中使用运行时数据实时执行简单的数学运算
- android - 使用 recyclerview 在编辑文本外点击时隐藏键盘