首页 > 解决方案 > 如何通过上传图片网址在谷歌上进行反向图片搜索?

问题描述

我的目标是自动化谷歌反向图像搜索。

我想上传一个图片网址并获取所有包含匹配图片的网站链接。

所以这是我到目前为止可以生产的:

import requests
import bs4

# Let's take a picture of Chicago
chicago = 'https://images.squarespace-cdn.com/content/v1/556e10f5e4b02ae09b8ce47d/1531155504475-KYOOS7EEGVDGMMUQQNX3/ke17ZwdGBToddI8pDm48kCf3-plT4th5YDY7kKLGSZN7gQa3H78H3Y0txjaiv_0fDoOvxcdMmMKkDsyUqMSsMWxHk725yiiHCCLfrh8O1z4YTzHvnKhyp6Da-NYroOW3ZGjoBKy3azqku80C789l0h8vX1l9k24HMAg-S2AFienIXE1YmmWqgE2PN2vVFAwNPldIHIfeNh3oAGoMooVv2g/Chi+edit-24.jpg'

# And let's take google image search uploader by url
googleimage = 'https://www.google.com/searchbyimage?&image_url='

# Here is our Chicago image url uploaded into google image search
url = googleimage+chicago

# And now let's request our Chichago google image search
response = requests.get(url)
soup = bs4.BeautifulSoup(response.text,'html.parser')

# Here is the output
print(soup.prettify())

我的问题是我没想到这个print(soup.prettify())输出。我没有在帖子中包含输出,因为它太长了。

如果您在浏览器中输入:

https://www.google.com/searchbyimage?&image_url=https://images.squarespace-cdn.com/content/v1/556e10f5e4b02ae09b8ce47d/1531155504475-KYOOS7EEGVDGMMUQQNX3/ke17ZwdGBToddI8pDm48kCf3-plT4th5YDY7kKLGSZN7gQa3H78H3Y0txjaiv_0fDoOvxcdMmMKkDsyUqMSsMWxHk725yiiHCCLfrh8O1z4YTzHvnKhyp6Da-NYroOW3ZGjoBKy3azqku80C789l0h8vX1l9k24HMAg-S2AFienIXE1YmmWqgE2PN2vVFAwNPldIHIfeNh3oAGoMooVv2g/Chi+edit-24.jpg

你会看到 html 代码与我们的输出有很大的不同soup

我期待soup代码有最终结果,所以我可以解析我需要的链接。相反,我只得到了一些我不太了解的奇怪功能。

谷歌图片搜索似乎是一个三步过程:首先你上传你的图片,然后发生一些奇怪的功能,然后你得到你的最终结果。

我怎样才能像在浏览器中一样获得最终结果?所以我可以像往常一样解析html代码。

标签: pythonweb-scrapinggoogle-image-search

解决方案


让我为你解释一下。

使用print(response.history)print(response.url

因此,如果是200,那么您将获得一个 url,例如https://www.google.com/search?tbs=sbi:

但如果是302,那么你会得到一个 url,比如hhttps://www.google.com/webhp?tbs=sbi:

因为302这意味着谷歌检测到你是一个BOT,因此它拒绝你webhp = Web Hidden Path,它将请求转换为机器人检测并由谷歌方面进一步分析。

您可以确认,如果您点击了您的链接Click Here并检查浏览器上将显示的内容bar

在此处输入图像描述

这意味着您需要考虑标题部分才能走上正轨。

使用以下方式。

from bs4 import BeautifulSoup
import requests

headers = {
    'Host': 'www.google.com',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:71.0) Gecko/20100101 Firefox/71.0',
    'Accept': '*/*',
    'Accept-Language': 'en-US,en;q=0.5',
    'Accept-Encoding': 'gzip, deflate, br',
    'Referer': 'https://www.google.com/',
    'Origin': 'https://www.google.com',
    'Connection': 'keep-alive',
    'Content-Length': '0',
    'TE': 'Trailers'
}

r = requests.get("https://www.google.com/searchbyimage?image_url=https://images.squarespace-cdn.com/content/v1/556e10f5e4b02ae09b8ce47d/1531155504475-KYOOS7EEGVDGMMUQQNX3/ke17ZwdGBToddI8pDm48kCf3-plT4th5YDY7kKLGSZN7gQa3H78H3Y0txjaiv_0fDoOvxcdMmMKkDsyUqMSsMWxHk725yiiHCCLfrh8O1z4YTzHvnKhyp6Da-NYroOW3ZGjoBKy3azqku80C789l0h8vX1l9k24HMAg-S2AFienIXE1YmmWqgE2PN2vVFAwNPldIHIfeNh3oAGoMooVv2g/Chi+edit-24.jpg&encoded_image=&image_content=&filename=&hl=en", headers=headers)
soup = BeautifulSoup(r.text, 'html.parser')
print(soup.prettify)

推荐阅读