web-scraping - 如何让网络爬虫/爬虫/机器人“友好”?
问题描述
“友好”是指robots.txt
[1 , 2]和<meta>
tag之外的考虑因素:
- 尊重某些指标(例如,通过定期抓取来节省带宽,或避免大量同时或重复的请求)
- 透明度和问责制(即,使某人可以轻松查找有关其来源和目的的信息,例如this。这是否只能通过为
User-Agent
项目提供唯一的 HTTP 标头来实现?) - 此列表中还应包括哪些内容?
解决方案
推荐阅读
- python - 加入两条绝对路径?
- php - 努力修复“未捕获的错误:调用成员函数 find()”
- php - Laravel:如何为列名起别名
- javascript - 如何将连续的 setInterval() 包装在一个永远循环中?
- scala - Scala 在 Haskell 中的部分函数
- android - react-native TextInput 剪辑文本
- php - PHP没有关闭Mysql连接并达到最大连接数
- java - JButton 不能转换为 javax.swing.JComboBox
- graph - Dijkstra 图中的最长路径
- javascript - Chrome 扩展后台脚本中的“未捕获错误:尝试使用断开连接的端口对象”消息