web-scraping - 谁能帮我解释 youtube 工作室的 robots.txt 吗?
问题描述
我想要完成的是了解 Youtube (Youtube-sutdio) 上使用机器人自动收集某些频道(大约 20 个)的数据的确切规则是什么。特别是 Youtube 工作室。在那里,我阅读了以下条款和条件:
“使用自动方式(例如机器人、僵尸网络或抓取工具)访问服务,但 (a) 根据 YouTube robots.txt 文件使用公共搜索引擎时,(b) 事先获得 YouTube 的书面同意或 (c) ) 在适用法律允许的范围内。”
所以我去了: https ://studio.youtube.com/robots.txt
当我阅读该文件时,在我看来 Youtube 工作室允许爬虫的爬取延迟为 0.5 秒。所以这意味着我可以编写一个从 Youtube 工作室收集信息的爬虫,对吧?因为没有不允许的 url。也许这是一个显而易见的问题,因为我自己给出了答案,但我只是想看看你们的意见是什么。因为我在爬虫方面没有太多经验,而且 Youtube 不禁止我的 IP 或更糟是非常重要的。你们可以看看,如果你认为,告诉我?
解决方案
推荐阅读
- javascript - 使用hammerjs和threejs的奇怪旋转行为
- linux - Linux 上字符设备的符号链接,模仿常规文件
- python - 从数据框创建箱线图而不合并为一个
- ios - 如何从 UINavigationBar *with* UISearchController 中删除 1px 底部边框?
- c# - 在新选项卡中打开 URL 字符串以单击它加载的图像,无法读取 URL 字符串
- python - Pandas DataFrame - 规范化
- react-native - 使用 Detox 测试 Switch 组件 - 点击会影响之前的 toHaveValue() 测试
- python - 如何将参数传递给 Pytest 中的 Selenium 测试函数?
- svn - 如何在 tgz 文件中添加修订号 svn?
- python - 以编程方式编写 .pypirc 文件