首页 > 技术文章 > 爬虫

ngz311616 2018-11-23 01:54 原文

爬虫流程:

获取网页原始数据------解析数据------数据持久化保存

由于需要持续不断地爬取或者说是获取数据,所以就需要高并发进行获取数据,然而普通的request是完成不了这样的任务的,所以我们就会用到scrapy框架,然而这个框架用到的高并发与异步请求是基于twisted这个模块进行的。

当然我们也会用一些数据解析的工具来解析获取到的原始数据进行本地持久化保存,以此更加易于展示数据的作用最大化显示。

推荐阅读