html - 如何阻止机器人抓取或索引 Angular 应用程序
问题描述
我想发布一个 Angular 应用程序以进行测试,但我想确保该网站不会被机器人抓取或索引。
我假设(可能很遥远!)我会<meta>
简单地在我的 index.html 页面上添加我的标签,并在我的根目录中添加一个 robots.txt 文件?
这些是我的元标记:
<meta name="robots" content="noindex,nofollow">
<meta name="googlebot" content="noindex" />
这是我的 robots.txt 文件的内容:
User-agent: *
Disallow: /
先感谢您!
解决方案
使用您指定的 robots.txt 文件将足以防止您的网站被遵循机器人排除标准的机器人索引。使用此 robots.txt,您无需指定元标头,因为机器人首先读取 robots.txt,并且不会解析网站的 HTML 以读取元标记。
当您的 robots.txt 文件通常允许为该页面编制索引但您希望在页面级别将其排除,从而允许更精细的选择时,将使用元标记。
请注意,一些不常见的爬虫可能不遵守排除标准。如果你真的想限制对你的测试站点的访问,你应该考虑让它只有在认证后才能访问,或者只允许访问某些 IP 地址。