文章目录

前言

一、环境配置

1.安装selenium

2.使用正确的谷歌浏览器驱动

前言

作为一名CVer，数据集获取少不了用到数据、图片爬虫技术，谷歌作为全球最大的数据搜索网站，如何从中快速获取大量有用图片数据尤为重要，但是技术更新，很多代码大多就会失效，爬与反爬永远斗智斗勇...

提示：以下是本篇文章正文内容，下面案例可供参考

一、环境配置

1.安装selenium

selenium是一个自动化测试工具，能够模拟浏览器行为，在爬虫上得到了广泛引用。如果你没有安装,请pip install

pip install selenium

2.使用正确的谷歌浏览器驱动

下载符合你的谷歌浏览器的驱动，chromedriver的版本一定要与Chrome的版本一致，不然就不起作用。

查看自己谷歌浏览器的版本，我这里是92.0.4515.131

找到对应的ChromeDriver版本，然后可以从下面的网站下载。

下载地址：https://npm.taobao.org/mirrors/chromedriver/

完整的代码包以及chromedriver已上传资源：https://download.csdn.net/download/m0_49688739/21005123

二、使用步骤

1.加载chromedriver.exe

修改以下代码中的路径，使用你自己的：

driver = webdriver.Chrome('E:/anaconda/chromedriver.exe', options=ch_op)

2.设置是否开启可视化界面

selenium模拟浏览器行为，其实相当于将我们手动搜索，输入，点击等操作用代码完成，这里可以设置是否开启可视化界面。

开启：可以看到浏览器自动打开并输入关键词搜索，滑动页面等过程，可以监测下载过程。

关闭：不开启浏览器界面，后台运行下载。

默认为关闭，如果需要开启请注释掉那两行代码

1 # 创建一个参数对象，用来控制chrome是否以无界面模式打开
2     ch_op = Options()
3     # 设置谷歌浏览器的页面无可视化，如果需要可视化请注释这两行代码
4     ch_op.add_argument('--headless')
5     ch_op.add_argument('--disable-gpu')

3.输入关键词、下载图片数、图片保存路径

这里的图片保存路径需要使用\\区分

之后就是获取图片url的过程，由于谷歌图片页面是动态加载的，获取每个图片的原图就需要点开大图，并等它加载一会才能获取到原图的url，如果时间太短，获取到的就会是缩略图，或者出错。

如果你的网络状况不好，请适当延长等待时间time.sleep()。

1 image = driver.find_element_by_xpath('//*[@id="islrg"]/div[1]/div[' + str(i) + ']/a[1]/div[1]/img')
2 
3 # 此选项为下载缩略图
4 # image_src = image.get_attribute("src")
5 image.click() # 点开大图
6 time.sleep(4)  # 因为谷歌页面是动态加载的，需要给予页面加载时间，否则无法获取原图url，如果你的网络状况一般请适当延长
7 # 获取原图的url
8 image_real = driver.find_element_by_xpath('//*[@id="Sva75c"]/div/div/div[3]/div[2]/c-wiz/div/div[1]/div[1]/div[2]/div[1]/a/img')
9 image_url = image_real.get_attribute("src")

三、爬取效果

由于需要等待页面加载，所以爬取时间会比较长，请耐心等待。

下载的基本都是原图，除非获取原图url失败。

四、完整代码

from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.chrome.options import Options
import time
import os
import urllib.request
import uuid

def download_pic(url, name, path):

    if not os.path.exists(path):
        os.makedirs(path)
    res = urllib.request.urlopen(url, timeout=3).read()
    with open(path + name +'.jpg', 'wb') as file:
        file.write(res)
        file.close()

def get_image_url(num, key_word):

    box = driver.find_element_by_xpath('/html/body/div[1]/div[3]/form/div[1]/div[1]/div[1]/div/div[2]/input')
    box.send_keys(key_word)
    box.send_keys(Keys.ENTER)
    box = driver.find_element_by_xpath('//*[@id="hdtb-msb"]/div[1]/div/div[2]/a').click()

    # 滚动页面
    last_height = driver.execute_script('return document.body.scrollHeight')
    while True:
        driver.execute_script('window.scrollTo(0,document.body.scrollHeight)')
        time.sleep(2)
        new_height = driver.execute_script('return document.body.scrollHeight')
        try:
            driver.find_elements_by_xpath('//*[@id="islmp"]/div/div/div/div/div[5]/input').click()
        except:
            pass
        if new_height == last_height:
            # 点击显示更多结果
            try:
                box = driver.find_element_by_xpath('//*[@id="islmp"]/div/div/div/div[1]/div[2]/div[2]/input').click()
            except:
                break
        last_height = new_height

    image_urls = []

    for i in range(1, num):
        try:
            image = driver.find_element_by_xpath('//*[@id="islrg"]/div[1]/div[' + str(i) + ']/a[1]/div[1]/img')
            # 此选项为下载缩略图
            # image_src = image.get_attribute("src")
            image.click() # 点开大图
            time.sleep(4)  # 因为谷歌页面是动态加载的，需要给予页面加载时间，否则无法获取原图url，如果你的网络状况一般请适当延长
            # 获取原图的url
            image_real = driver.find_element_by_xpath('//*[@id="Sva75c"]/div/div/div[3]/div[2]/c-wiz/div/div[1]/div[1]/div[2]/div[1]/a/img')
            image_url = image_real.get_attribute("src")
            image_urls.append(image_url)
            print(str(i) + ': ' + image_url)
        except:
            print(str(i) + ': error')
            pass
    return image_urls
if __name__ == '__main__':
    # 创建一个参数对象，用来控制chrome是否以无界面模式打开
    ch_op = Options()
    # 设置谷歌浏览器的页面无可视化，如果需要可视化请注释这两行代码
    ch_op.add_argument('--headless')
    ch_op.add_argument('--disable-gpu')

    url = "https://www.google.com/"
    driver = webdriver.Chrome('E:/anaconda/chromedriver.exe', options=ch_op)
    driver.get(url)

    key_word = input('请输入关键词：')
    num = int(input('请输入需要下载的图片数：'))
    _path = input('请输入图片保存路径,例如G:\\\\google\\\\images\\\\ :')

    # path = "G:\\google\\images_download\\" + key_word + "\\"  # 图片保存路径改为自己的路径
    path = _path + key_word + "\\"
    print('正在获取图片url...')
    image_urls = get_image_url(num, key_word)
    for index, url in enumerate(image_urls):
        try:
            print('第' + str(index) + '张图片开始下载...')
            download_pic(url, str(uuid.uuid1()), path)
        except Exception as e:
            print(e)
            print('第' + str(index) + '张图片下载失败')
            continue
    driver.quit()

Python批量爬取谷歌原图，2021年最新可用版

文章目录

前言

一、环境配置

1.安装selenium

2.使用正确的谷歌浏览器驱动

二、使用步骤

1.加载chromedriver.exe

2.设置是否开启可视化界面

3.输入关键词、下载图片数、图片保存路径

三、爬取效果

四、完整代码

推荐阅读