python - 美丽的汤文字返回空白
问题描述
我正在尝试抓取一个网站,但它返回空白,您能帮忙吗?我错过了什么?
import requests
from bs4 import BeautifulSoup
URL = 'https://ks.wjx.top/jq/50921280.aspx'
page = requests.get(URL)
soup = BeautifulSoup(page.content, 'html.parser')
print(soup.text)
解决方案
要获得响应,请将User-Agent
标头添加到requests.get()
,否则,网站会认为您是机器人,并将阻止您。
import requests
from bs4 import BeautifulSoup
URL = "https://ks.wjx.top/jq/50921280.aspx"
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.114 Safari/537.36"
}
page = requests.get(URL, headers=headers)
soup = BeautifulSoup(page.content, "html.parser")
print(soup.prettify())
推荐阅读
- python - 过滤查询参数,多对多
- linux - copy_to_user 可以用于 IO 内存吗?
- apache-spark - 如何在 WITH 和 VALUES 中重命名 Spark SQL 中的列?
- python - PyQt 应用程序屏幕变化通知
- apache-kafka - Kafka——Consumer Group Leader的真正意义是什么
- selenium-webdriver - 在 Selenium webdriver 中,对于远程 Firefox,如何使用 OSS 桥而不是 w3c 桥进行握手
- kubernetes - 如何设置 k8s 不检查指标服务器?
- kdb - 创建文件树是 q 的内置功能吗?
- reporting-services - 我在 ssrs 中有一个包含 12 个月列和类别的矩阵,日期如下。如何找到第一行和第二行之间的区别
- javascript - 尝试在 Disocrd.js 中播放音频文件