.htaccess - 禁止标题页 robots.txt
问题描述
我想禁止 robots.txt 中的 header.php 被索引。文件网址:
https://example.com/header.php
但我不确定什么是正确的:
Disallow: /header.php
或者
Disallow: header.php
解决方案
中指定的 URL 路径robots.txt
应始终以斜杠开头(即相对于根的)。
[path] 值(如果指定)将从为其提取 robots.txt 文件的网站的根目录中查看(使用相同的协议、端口号、主机和域名)。路径值必须以“/”开头以指定根。路径区分大小写。
所以,你应该写:
Disallow: /header.php
但是,这会阻止爬网,如果链接到此 URL ,它不一定会阻止索引。虽然,我怀疑这只是一个 HTML 片段(?),所以在这种情况下阻止抓取是要做的事情。(但请注意,如果您有很多包含,那么它们最好包含在子目录中并简单地阻止子目录。)
在上线之前在Google 的 robots.txt 测试器中测试您的robots.txt
文件。
推荐阅读
- python - 为什么我的多处理函数 map_async 卡住了?
- php - 如何在 codeigniter 中使用 ajax 在 div 中加载视图
- permissions - Hyperledger-Composer 权限:从 HistorianRecord 只读特定类型的交易
- objective-c - 以编程方式打开显示首选项?
- prometheus - Prometheus avg_over_time 和除非包含太多数据
- git - 无法从 Windows 10 WLS (ubuntu) 推送到 github 存储库
- machine-learning - 如何将新向量添加到 Keras 嵌入矩阵
- reactjs - MUI:有条件地禁用按钮
- data-structures - 如何在 UnionFind 数据结构中正确实现加权联合和路径压缩
- python - Python 最佳实践。从另一个 python 文件调用命令行 python 文件