google-app-engine - 防止不检查 robots.txt 的恶意机器人启动应用引擎
问题描述
我的 Google App Engine 网站正被许多机器人抓取,而且最近情况变得更糟。机器人数量猛增,其中大多数不检查 robots.txt,这让我付出了代价。有没有办法防止不检查 robots.txt 的恶意机器人启动应用引擎?
解决方案
不幸的是,robots.txt
它仅对正确执行和遵守约定的行为良好的机器人有效。从如何防止机器人扫描我的网站?:
防止机器人访问您网站的快速方法是将这两行放入您服务器上的 /robots.txt 文件中:
User-agent: * Disallow: /
但这仅对表现良好的机器人有所帮助。
请参阅我可以阻止坏机器人吗?
并从引用的链接:
我可以阻止坏机器人吗?
理论上可以,实际上不行。如果坏机器人服从 /robots.txt,并且您知道它在 User-Agent 字段中扫描的名称。然后您可以在 /robotst.txt 中创建一个部分来专门排除它。但几乎所有坏机器人都会忽略 /robots.txt,这毫无意义。
如果坏机器人从单个 IP 地址运行,您可以通过服务器配置或网络防火墙阻止其访问您的 Web 服务器。
如果机器人的副本在许多不同的 IP 地址上运行,例如作为大型僵尸网络一部分的被劫持的 PC ,那么它就会变得更加困难。最好的选择是使用高级防火墙规则配置,自动阻止对建立许多连接的 IP 地址的访问;但这可能会打击好机器人以及坏机器人。
推荐阅读
- c - 无法加载库:错误的 ELF 类:ELFCLASS64
- angular - 在 Angular 项目中使用 AFRAME.registerComponent
- python - 如何并排打印列表中的字符串?
- angular - 如何从 Angular Control 值访问器获取最大和最小长度?
- c# - 使用 Microsoft.Office.Interop 分发应用程序的最佳实践
- elasticsearch - 如何在弹性搜索中搜索“foo ba*”?
- c++ - 通过提供的 SDK 连接到我的 UHF RFID 阅读器
- python - 2D Heatmap 使用 python 处理已经分箱的数据
- azure-iot-hub - Azure IoT:无法将 ESP8266 设备连接到 IoT Edge(证书错误)
- dataframe - 没有重复的df中的频率R