首页 > 技术文章 > 爬虫介绍

yaya625202 2019-01-23 11:31 原文

编辑本随笔

爬虫分类:

通用爬虫:将互联网上得网页下载到本地,形成一个互联网得备份。

聚焦爬虫:根据指定需求抓取网络上指定数据,而不是获取整张页面中所有得数据。

robots.txt协议

不想让爬虫爬取,可以写一个robots.txt协议,可参考淘宝的robots.txt协议(www.taobao.com/robots.txt)。协议属于口头协议,没有使用相关技术强制管制。

反爬虫

通过相应策略或技术手段,放置爬虫程序进行网站数据爬取

反反爬虫

破解门户网站的反爬虫手段,从而爬取到相应的数据

推荐阅读