首页 > 技术文章 > 爬虫scrapy-begin

lxgbky 2020-02-24 16:58 原文

参考:

https://www.osgeo.cn/scrapy/intro/tutorial.html

 

 

创建project后的目录结构如下:

project_name(folder)

------project_name(folder)

------scrapy.cfg

 

 

一 、 建立python运行env 

 

 

二、 启动env 

D:\00\pystudy\01env\Scripts>activate.bat

(01env) D:\00\pystudy\01env\Scripts>pip list

三、安装 scripy

(01env) D:\00\pystudy\01env\Scripts>pip  install Scripy

四、确认是否成功

(01env) D:\00\pystudy\01env\Scripts>pip list
Package Version
---------------- -------
asgiref 3.2.3
attrs 19.3.0
Automat 20.2.0
cffi 1.14.0
constantly 15.1.0
cryptography 2.8
cssselect 1.1.0
Django 3.0.3
scripy 1.8

Django 3.0.3

五、创建爬虫工程跟目录

(01env) D:\00\pystudy>mkdir 09scripy

(01env) D:\00\pystudy>cd 09scripy

六、进入目录,创建工程

(01env) D:\00\pystudy\09scripy>scrapy startproject scrapy_spider

七、用pycharm打开,

 

八、工程创建完后,创建爬虫

 可以用指令模板创建,也可以手工创建py文件。


(01env) D:\00\pystudy\09scripy>cd scrapy_spider

(01env) D:\00\pystudy\09scripy\scrapy_spider>scrapy genspider quotes_spider quotes.toscrape.com
Created spider 'quotes_spider' using template 'basic' in module:
scrapy_spider.spiders.quotes_spider

 

 九、编辑parse() ,运行

    def parse(self, response):
        quotes = response.xpath("//div[@class='quote']//span[@class='text']/text()").extract()
        yield {'quotes': quotes}

在工程目录下(含scrapy.cfg),执行 scrapy crawl quotes_spider

 

 

 

推荐阅读