robots.txt - 在 Google Search Console 中阻止外部 URL 进行抓取
问题描述
我在某些页面上有很多错误,因为 Google Search Console 爬虫无法加载页面上的所有资源。资源太多(在其他问题中提到)。所以我需要选择一些 Google 可以完全跳过的资源(比如 Facebook 脚本或 Adobe typekit 脚本)
我尝试通过 robots.txt 文件执行此操作,但这不起作用,因为它只能阻止同一域上的 URL。
有谁知道如何阻止 Google Search Console 抓取外部域上的特定文件?还是我需要下载这些文件并从我自己的域中提供它们?
或者另一个问题,是否有可能为爬虫优先考虑某些 CSS 文件?
解决方案
推荐阅读
- javascript - 从包含字符串 ('A','J'...) 和数字(数组中的卡片组)的数组中获取总值
- triggers - Apache Airflow:多触发器
- asp.net-core - 如何让我的 appSettings.json 在 .NET 核心中覆盖我的 web.Config?
- node.js - 私有节点模块拉入 docker
- python - 使用 Python 自动化 Google 定义搜索
- amazon-web-services - 触发 lambda 后如何在 SQS 上保留消息
- android - 出现此问题时,我正在制作一个应用程序,“已安装的构建工具修订版 29.0.3 已损坏”
- sql - 根据一系列列返回最新日期
- api - 如何在 Flutter 中使用来自 api 的双精度值?
- android - Android Kotlin 从一个模块引用或导入库类到另一个模块