首页 > 解决方案 > 谁能帮我解释 youtube 工作室的 robots.txt 吗?

问题描述

我想要完成的是了解 Youtube (Youtube-sutdio) 上使用机器人自动收集某些频道(大约 20 个)的数据的确切规则是什么。特别是 Youtube 工作室。在那里,我阅读了以下条款和条件:

“使用自动方式(例如机器人、僵尸网络或抓取工具)访问服务,但 (a) 根据 YouTube robots.txt 文件使用公共搜索引擎时,(b) 事先获得 YouTube 的书面同意或 (c) ) 在适用法律允许的范围内。”

所以我去了: https ://studio.youtube.com/robots.txt

来自 youtube-studio 的 Robots.txt

当我阅读该文件时,在我看来 Youtube 工作室允许爬虫的爬取延迟为 0.5 秒。所以这意味着我可以编写一个从 Youtube 工作室收集信息的爬虫,对吧?因为没有不允许的 url。也许这是一个显而易见的问题,因为我自己给出了答案,但我只是想看看你们的意见是什么。因为我在爬虫方面没有太多经验,而且 Youtube 不禁止我的 IP 或更糟是非常重要的。你们可以看看,如果你认为,告诉我?

标签: web-scrapingyoutuberobots.txt

解决方案


推荐阅读