首页 > 解决方案 > 想了解 Robots.txt

问题描述

我想抓取一个网站。但是,我想先了解 robots.txt。我不明白的行是

User-agent: *
Disallow: /*/*/*/*/*/*/*/*/
Disallow: /*?&*&*
Disallow: /*?*&*
Disallow: /*|*

用户代理行是否意味着任何地方都可以访问?但是后来我有了 Disallow 行,这是我关心的主要行。这是否意味着不访问 8 层深度,或者根本不访问?

标签: web-scrapingscrapyscrapinghub

解决方案


我相信人们只是简单地robot.txtregex. 星星通常可以解释为任何东西/一切

User-Agent 行User-agent: *并不意味着您可以抓取所有内容,它只是意味着以下规则适用于所有 user-agents。以下是用户代理的示例

# Chrome Browser
Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36
# Python requests default
python-requests/2.19.1

必须遵守相同的规则,即:

  • 例如Disallow: /*?*&*意味着您不允许抓取表单的子域/some_sub_domain?param_name=param_value

  • 或者该行/*/*/*/*/*/*/*/*/表示不允许抓取以下形式的子域/a/b/c/d/e/f/g/i/

最后,这里有一些有见地的例子和更多关于这个话题的例子。


推荐阅读