python - 如何通过上传图片网址在谷歌上进行反向图片搜索?
问题描述
我的目标是自动化谷歌反向图像搜索。
我想上传一个图片网址并获取所有包含匹配图片的网站链接。
所以这是我到目前为止可以生产的:
import requests
import bs4
# Let's take a picture of Chicago
chicago = 'https://images.squarespace-cdn.com/content/v1/556e10f5e4b02ae09b8ce47d/1531155504475-KYOOS7EEGVDGMMUQQNX3/ke17ZwdGBToddI8pDm48kCf3-plT4th5YDY7kKLGSZN7gQa3H78H3Y0txjaiv_0fDoOvxcdMmMKkDsyUqMSsMWxHk725yiiHCCLfrh8O1z4YTzHvnKhyp6Da-NYroOW3ZGjoBKy3azqku80C789l0h8vX1l9k24HMAg-S2AFienIXE1YmmWqgE2PN2vVFAwNPldIHIfeNh3oAGoMooVv2g/Chi+edit-24.jpg'
# And let's take google image search uploader by url
googleimage = 'https://www.google.com/searchbyimage?&image_url='
# Here is our Chicago image url uploaded into google image search
url = googleimage+chicago
# And now let's request our Chichago google image search
response = requests.get(url)
soup = bs4.BeautifulSoup(response.text,'html.parser')
# Here is the output
print(soup.prettify())
我的问题是我没想到这个print(soup.prettify())
输出。我没有在帖子中包含输出,因为它太长了。
如果您在浏览器中输入:
https://www.google.com/searchbyimage?&image_url=https://images.squarespace-cdn.com/content/v1/556e10f5e4b02ae09b8ce47d/1531155504475-KYOOS7EEGVDGMMUQQNX3/ke17ZwdGBToddI8pDm48kCf3-plT4th5YDY7kKLGSZN7gQa3H78H3Y0txjaiv_0fDoOvxcdMmMKkDsyUqMSsMWxHk725yiiHCCLfrh8O1z4YTzHvnKhyp6Da-NYroOW3ZGjoBKy3azqku80C789l0h8vX1l9k24HMAg-S2AFienIXE1YmmWqgE2PN2vVFAwNPldIHIfeNh3oAGoMooVv2g/Chi+edit-24.jpg
你会看到 html 代码与我们的输出有很大的不同soup
。
我期待soup
代码有最终结果,所以我可以解析我需要的链接。相反,我只得到了一些我不太了解的奇怪功能。
谷歌图片搜索似乎是一个三步过程:首先你上传你的图片,然后发生一些奇怪的功能,然后你得到你的最终结果。
我怎样才能像在浏览器中一样获得最终结果?所以我可以像往常一样解析html代码。
解决方案
让我为你解释一下。
使用print(response.history)
和print(response.url
因此,如果是200
,那么您将获得一个 url,例如https://www.google.com/search?tbs=sbi:
但如果是302
,那么你会得到一个 url,比如hhttps://www.google.com/webhp?tbs=sbi:
因为302
这意味着谷歌检测到你是一个BOT
,因此它拒绝你webhp = Web Hidden Path
,它将请求转换为机器人检测并由谷歌方面进一步分析。
您可以确认,如果您点击了您的链接Click Here并检查浏览器上将显示的内容bar
。
这意味着您需要考虑标题部分才能走上正轨。
使用以下方式。
from bs4 import BeautifulSoup
import requests
headers = {
'Host': 'www.google.com',
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:71.0) Gecko/20100101 Firefox/71.0',
'Accept': '*/*',
'Accept-Language': 'en-US,en;q=0.5',
'Accept-Encoding': 'gzip, deflate, br',
'Referer': 'https://www.google.com/',
'Origin': 'https://www.google.com',
'Connection': 'keep-alive',
'Content-Length': '0',
'TE': 'Trailers'
}
r = requests.get("https://www.google.com/searchbyimage?image_url=https://images.squarespace-cdn.com/content/v1/556e10f5e4b02ae09b8ce47d/1531155504475-KYOOS7EEGVDGMMUQQNX3/ke17ZwdGBToddI8pDm48kCf3-plT4th5YDY7kKLGSZN7gQa3H78H3Y0txjaiv_0fDoOvxcdMmMKkDsyUqMSsMWxHk725yiiHCCLfrh8O1z4YTzHvnKhyp6Da-NYroOW3ZGjoBKy3azqku80C789l0h8vX1l9k24HMAg-S2AFienIXE1YmmWqgE2PN2vVFAwNPldIHIfeNh3oAGoMooVv2g/Chi+edit-24.jpg&encoded_image=&image_content=&filename=&hl=en", headers=headers)
soup = BeautifulSoup(r.text, 'html.parser')
print(soup.prettify)
推荐阅读
- javascript - 使用 javascript 代码以 Django 形式发送输入名称
- java - 如何对对象类型列表进行排序
- php - 很少有指标在 Google Analytics Measurement Protocol 中不起作用
- reactjs - 有条件地在具有 json 样式定义的 React 组件上应用样式
- python - 使用 Python 在循环中生成列表组合
- angular - 需要在子模块中实现翻译 angular 8 BaseComponent 是抽象类,LanguageTranslateService 是翻译服务
- excel - 当我尝试定义任何类型的函数时未定义函数
- python - 运行 import cv2 时出现错误。解决方案是什么?
- python - 迭代元组的元组时仅显示特定索引
- arrays - 删除数组中的元素 [组装]