首页 > 技术文章 > 爬虫

dongqingcheng 2019-03-04 16:51 原文

爬虫的概念:

什么是爬虫?

  程序员:写爬虫程序,指定a标签去互联网上抓取数据的过程,就像一只蜘蛛

  互联网:就像一张蜘蛛网,有好多的a标签组成的,网的节点就是每个a标签

哪些语言可以做爬虫

  php可以做,号称是世界上最牛逼的语言,但是多线程多进程不完善,不理想

  c、c++:很复杂,是你能力的体现,但不是良好的选择

  python:语法简单,支持的框架比较多,

  java:号称世界上最美丽的语言,爬虫框架支持的比较多,代码简单优美

通用爬虫,聚焦爬虫

  通用爬虫:百度,谷歌,360,搜狐,必应等

  原理:

  1. 抓取网页
  2. 采集数据
  3. 数据处理
  4. 提供检索服务

聚焦爬虫:就是我们自己写的爬虫程序,抓取自己想要的数据

推荐阅读