web-scraping - 想了解 Robots.txt

问题描述

我想抓取一个网站。但是，我想先了解 robots.txt。我不明白的行是

User-agent: *
Disallow: /*/*/*/*/*/*/*/*/
Disallow: /*?&*&*
Disallow: /*?*&*
Disallow: /*|*

用户代理行是否意味着任何地方都可以访问？但是后来我有了 Disallow 行，这是我关心的主要行。这是否意味着不访问 8 层深度，或者根本不访问？

标签： web-scrapingscrapyscrapinghub

我相信人们只是简单地robot.txt用regex. 星星通常可以解释为任何东西/一切。

User-Agent 行User-agent: *并不意味着您可以抓取所有内容，它只是意味着以下规则适用于所有 user-agents。以下是用户代理的示例

# Chrome Browser
Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36
# Python requests default
python-requests/2.19.1

必须遵守相同的规则，即：

例如Disallow: /*?*&*意味着您不允许抓取表单的子域/some_sub_domain?param_name=param_value。
或者该行/*/*/*/*/*/*/*/*/表示不允许抓取以下形式的子域/a/b/c/d/e/f/g/i/

最后，这里有一些有见地的例子和更多关于这个话题的例子。

web-scraping - 想了解 Robots.txt

问题描述

解决方案

推荐阅读