selenium

1.1什么是selenium

selenium可以模拟真实浏览器，自动化测试工具，支持多种浏览器，爬虫中主要用来解决JavaScript渲染问题、通过账号密码获取cookies(基于各大网站登录验证码的升级，特别是12306)。

1.2centos7无桌面环境部署

安装火狐浏览器

$ yum install firefox

安装selenium

$ pip3 install selenium

安装Firefoxdriver

$ wget https://github.com/mozilla/geckodriver/releases/download/v0.23.0/geckodriver-v0.23.0-linux64.tar.gz
$ tar -zxvf geckodriver-*.tar.gz
$ ln -s /root/geckodriver /usr/bin/geckodriver


# 最新版本下载
https://github.com/mozilla/geckodriver/releases

启动程序测试

from selenium import webdriver


options = webdriver.FirefoxOptions()
options.add_argument('-headless')
b = webdriver.Firefox(firefox_options=options)
b.get('http://www.baidu.com')
print(b.page_source)
b.quit()

1.3最新chromedriver安装

phantomjs逐步淡出我们的实现，已经不再被支持，chrome集高并发的优点，且目前也已支持无头浏览器。

安装chrome

$ curl https://intoli.com/install-google-chrome.sh | bash

查看下载的chrome版本，命令行会有显示，然后根据chrome版本选择相对应的chromedriver

$ google-chrome --version

Google Chrome 84.0.4147.125

测试

$ google-chrome-stable --no-sandbox --headless --disable-gpu --screenshot     https://www.suning.com/ # 在当前路径下生成一张截图。

下载最新版本的chromedriver,

https://sites.google.com/a/chromium.org/chromedriver/downloads

# 解压
$ unzip chromedriver_linux64.zip

# 测试
$ ./chromedriver

# 加入环境变量

实际环境中采用的写法，并成功了.

from selenium import webdriver
chrome_options = webdriver.ChromeOptions()
# 使用代理ip
chrome_options.add_argument("--proxy-server=http://202.20.16.82:10152")
# 使用headless无界面浏览器模式
chrome_options.add_argument('--headless')
chrome_options.add_argument('--no-sandbox')
# 谷歌文档提到需要加上这个属性来规避bug
chrome_options.add_argument('--disable-gpu')
# 禁止加载图片
chrome_options.add_argument('blink-settings=imagesEnabled=false')
# 设置默认请求头
chrome_options.add_argument("user-agent='Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36'")
wd = webdriver.Chrome(chrome_options=chrome_options,executable_path='/home/chrome/chromedriver')

wd.get("https://www.163.com")

content = wd.page_source.encode('utf-8')
print(content)

wd.quit()

1.3selenium的基本使用

声明浏览器对象

1 from selenium import webdriver
2 
3 browser = webdriver.Chrome()
4 browser = webdriver.Firefox()

访问页面

1 from selenium import webdriver
2 
3 browser = webdriver.Chrome(executable_path="D:\SeleniumDemo-master\chromedriver.exe")
4
5 browser.get("http://www.baidu.com") 

6 print(browser.page_source) 

7 browser.quit() # quit关闭所有并清除缓存，close仅仅关闭当前页

查找单个元素

 1 from selenium import webdriver
 2 
 3 browser = webdriver.Chrome()
 4 
 5 browser.get("http://www.taobao.com")
 6 input_first = browser.find_element_by_id("q")
 7 input_second = browser.find_element_by_css_selector("#q")
 8 input_third = browser.find_element_by_xpath('//*[@id="q"]')
 9 print(input_first)
10 print(input_second)
11 print(input_third)
12 browser.close()

查找多个元素

1 from selenium import webdriver
2 
3 
4 browser = webdriver.Chrome()
5 browser.get("http://www.taobao.com")
6 lis = browser.find_elements_by_css_selector('.service-bd li')
7 print(lis)
8 browser.close()

元素交互操作

对于获取的元素调用交互方法

 1 from selenium import webdriver
 2 
 3 import time
 4 
 5 browser = webdriver.Chrome()
 6 browser.get("http://www.taobao.com")
 7 input_str = browser.find_element_by_id('q')
 8 input_str.send_keys("ipad")
 9 time.sleep(1)
10 input_str.clear()
11 input_str.send_keys("MakBook pro")
12 button = browser.find_element_by_class_name('btn-search')
13 button.click()

Frame

在很多网页中都是有Frame标签，所以我们爬取数据的时候就涉及到切入到frame中以及切出来的问题，通过下面的例子演示
这里常用的是switch_to.from()和switch_to.parent_frame()

 1 import time
 2 from selenium import webdriver
 3 from selenium.common.exceptions import NoSuchElementException
 4 
 5 browser = webdriver.Chrome()
 6 url = 'http://www.runoob.com/try/try.php?filename=jqueryui-api-droppable'
 7 browser.get(url)
 8 browser.switch_to.frame('iframeResult')
 9 source = browser.find_element_by_css_selector('#draggable')
10 print(source)
11 try:
12     logo = browser.find_element_by_class_name('logo')
13 except NoSuchElementException:
14     print('NO LOGO')
15 browser.switch_to.parent_frame()
16 logo = browser.find_element_by_class_name('logo')
17 print(logo)
18 print(logo.text)