python - 如何知道beautifulsoup中网页抓取的最后一个页码网站?
问题描述
我正在从 Flipkart 中抓取数据,我想在其中抓取所有产品的名称、价格和评级。所以我想从所有页面中抓取所有必需的信息。此链接有 11 个页面: https ://www.flipkart.com/mobiles/mi~brand/pr?sid=tyy%2C4io&otracker=nmenu_sub_Electronics_0_Mi 那么我怎样才能循环直到我到达页面末尾,即直到 11 日页码。
解决方案
from bs4 import BeautifulSoup
import requests
from itertools import zip_longest
def mxnum():
r = requests.get(
"https://www.flipkart.com/mobiles/mi~brand/pr?sid=tyy%2C4io&otracker=nmenu_sub_Electronics_0_Mi")
soup = BeautifulSoup(r.text, 'html.parser')
for item in soup.findAll("div", {'class': '_2zg3yZ'}):
mxnum = list(item.strings)[0].split(" ")[-1]
return int(mxnum) + 1
mxnum = mxnum()
def Parse():
with requests.Session() as req:
names = []
prices = []
rating = []
for num in range(1, mxnum):
print(f"Extracting Page# {num}")
r = req.get(
f"https://www.flipkart.com/mobiles/mi~brand/pr?sid=tyy%2C4io&otracker=nmenu_sub_Electronics_0_Mi&page={num}")
soup = BeautifulSoup(r.text, 'html.parser')
for name in soup.find_all("div", {'class': '_3wU53n'}):
names.append(name.text)
for price in soup.find_all("div", {'class': '_1vC4OE _2rQ-NK'}):
prices.append(price.text[1:])
for rate in soup.find_all("div", {'class': 'hGSR34'}):
rating.append(rate.text)
for a, b, c in zip_longest(names, prices, rating):
print("Name: {}, Price: {}, Rate: {}".format(a, b, c))
Parse()
推荐阅读
- sql - SQL查询根据先前的值计算运行计数器
- python - 错误:OSError:libmediainfo.so.0:无法打开共享对象文件:没有这样的文件或目录
- swift - Swift Append() 方法覆盖以前的数据
- jquery - jquery validate避免将errorClass添加到输入
- python-3.x - Dask中的二维布尔索引
- laravel - 从表格中选择不同的名称和编号并将其显示到下拉框中,然后保存我该怎么办?
- c# - FitNesse - 检查变量是否不包含脚本表中的文本
- python - 导入 keras 时获取 DLL 加载失败
- amazon-web-services - 如何在 AWS EMR 笔记本上安装 python 库?
- javascript - PHP foreach 中的 Javascript