首页 > 技术文章 > Python爬虫二 Robots协议

fu-9 2020-03-08 20:27 原文

网站限制爬虫的两个办法:

  • 审查来源
  • robots告知

robots协议存放在网站根目录,并不是所有的网站都有robots协议的

基本语法:
User-agent:* 爬虫来源,*代表所有
Disallow:/ 不允许爬取的资源目录,/代表根目录

爬虫怎么遵守robots协议?
自动或人工识别robots协议,再进行内容爬取

推荐阅读