首页 > 解决方案 > 防止不检查 robots.txt 的恶意机器人启动应用引擎

问题描述

我的 Google App Engine 网站正被许多机器人抓取,而且最近情况变得更糟。机器人数量猛增,其中大多数不检查 robots.txt,这让我付出了代价。有没有办法防止不检查 robots.txt 的恶意机器人启动应用引擎?

标签: google-app-enginebots

解决方案


不幸的是,robots.txt它仅对正确执行和遵守约定的行为良好的机器人有效。从如何防止机器人扫描我的网站?

防止机器人访问您网站的快速方法是将这两行放入您服务器上的 /robots.txt 文件中:

User-agent: *
Disallow: /

但这仅对表现良好的机器人有所帮助。

请参阅我可以阻止坏机器人吗?

并从引用的链接:

我可以阻止坏机器人吗?

理论上可以,实际上不行。如果坏机器人服从 /robots.txt,并且您知道它在 User-Agent 字段中扫描的名称。然后您可以在 /robotst.txt 中创建一个部分来专门排除它。但几乎所有坏机器人都会忽略 /robots.txt,这毫无意义。

如果坏机器人从单个 IP 地址运行,您可以通过服务器配置或网络防火墙阻止其访问您的 Web 服务器。

如果机器人的副本在许多不同的 IP 地址上运行,例如作为大型僵尸网络一部分的被劫持的 PC ,那么它就会变得更加困难。最好的选择是使用高级防火墙规则配置,自动阻止对建立许多连接的 IP 地址的访问;但这可能会打击好机器人以及坏机器人。


推荐阅读