首页 > 解决方案 > 无法使用 Python 获取网页的完整源代码

问题描述

我正在学习使用 python 抓取网页并使用一些库(Beautifulsoup 和 requests)来获得结果。但是当我试图提取任何网页的数据时,让我们说西尔斯产品网址 - https://www.sears.com/tradesman-talg1670-70-inch-economy-line-aluminum-gull/p-00937054000P?plpSellerId =Sears&prdNo=1&blockNo=1&blockType=G1,所以这里我没有得到完整的页面源代码,我需要获取产品标题、价格、规格等。

我在浏览器控制台检查时找到了一个 url,它包含 json 格式的所有产品详细信息但我仍然无法提取这些 json 数据。这是 json 格式的网址 - https://www.sears.com/content/pdp/config/products/v1/products/04403935070P?site=sears

以下是拉取源代码的代码:

from bs4 import BeautifulSoup
import requests
import re
import json

s = requests.session()  #start requests session    
page = s.get("https://www.sears.com/tradesman-talg1670-70-inch-economy-line-aluminum-gull/p-00937054000P?plpSellerId=Sears&prdNo=1&blockNo=1&blockType=G1")  #get the page
soup = BeautifulSoup(page.content) 

#print(soup.encode("utf-8"))
print(soup)

请检查这些代码并建议我获得更好的解决方案,在此先感谢。

标签: pythonpython-3.xbeautifulsouppython-requests

解决方案


推荐阅读