1.安装
- 安装c++budildtools
- 使用该网站
- 搜索并下载
- lxml
- Twisted
- Scrapy
- 使用cmd打开到下载文件的目录输入pip install {文件名}
2.xpath简介
xpath可以使用路径表达式在xml和html中导航
xpath包含标准函数库
xpath是w3c标准的主要元素,并且XQuery和XPointer都构建 XPath表达之上
3.xpath语法
https://www.w3school.com.cn/xpath/index.asp
xpath某个标签的路径可以在Elements(DOM和样式查看器)中复制
4.在python中使用xpath
import requests from scrapy import Selector r = requests.get('https://www.88ys.cc/ribendongman/201901/56106.html') r.encoding = 'utf-8' html = r.text sel = Selector(text=html) tag = sel.xpath('/html/body/div[4]/div[1]/div[2]/dl/h1/text()').extract()#/text()只显示标签里的内容,extract()方法是将对象转换成list print(tag)#返回<class 'list'>
xpath方法:https://developer.mozilla.org/en-US/docs/Web/Xpath/Functions