python - 为什么我不能用 selenium python 抓取特定的亚马逊音乐页面?
问题描述
https://www.amazon.com/Prettymuch-EP-PRETTYMUCH/dp/B07CF6YXDP
上面提到的纯链接,而不是使用堆栈溢出标记单击它时指向的链接。
这是网址。
def get_soup(url):
headers = {'User-Agent':
'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2228.0 Safari/537.36',
}
r = requests.get(url, headers=headers)
r.raise_for_status()
return BeautifulSoup(r.text, 'lxml')
url = input("Please enter an Amazon music url:")
soup = get_soup(url)
通过它请求时出现错误,为什么会这样?
Please enter an Amazon music url:https://www.amazon.com/Prettymuch-EP-
PRETTYMUCH/dp/B07CF6YXDP
Traceback (most recent call last):
File "D:/Pycharm (4)/selemin.py", line 4, in <module>
import amazon
File "D:\Pycharm (4)\amazon.py", line 63, in <module>
soup = get_soup(url)
File "D:\Pycharm (4)\amazon.py", line 12, in get_soup
r.raise_for_status()
File "C:\Users\HP\AppData\Local\Programs\Python\Python37-32\lib\site-
packages\requests\models.py", line 940, in raise_for_status
raise HTTPError(http_error_msg, response=self)
requests.exceptions.HTTPError: 404 Client Error: Not Found for url:
https://www.amazon.com/Prettymuch-EP-PRETTYMUCH/dp/B07CF6YXDP%20
解决方案
看看错误告诉你什么 - 它是一个不同的 url。特别是,它会抛出一个错误,因为它以%20
. 这意味着您的输入末尾有一个空格。我建议处理您的输入以避免这种情况,例如
new_url = url.strip()
推荐阅读
- python - 图像分类模型
- tensorflow - 如何使用自己的图像使用 MNIST 数据集和神经网络预测手写数字
- regex - 在 lua 5.1 中使用 string.gmatch 拆分字符串时包含空匹配项
- c - 不熟悉的c语言表达,与pthreads有关
- linux - 如何使用 libpqxx 以编程方式清除 PostgreSQL 数据库
- oracle - 如何建立参照完整性约束?
- java - 如何更新没有任何数据的行以唯一标识该行?
- c# - C# Linq 表达式 - 如何获取表达式的实例
- tomcat - Tomcat中每个不同应用程序的单独jvm选项
- css - 侧边栏打开时如何将主要内容保留在侧边栏下方?