python - 一个站点在被爬虫爬取时可以获得哪些信息?
问题描述
我有一个单文件蜘蛛,它只抓取一个站点。网站所有者可以看到哪些信息?
在这里,我没有使用自定义设置。(所以这是默认设置)。
例子:
1.蜘蛛名称
2.IP
3.操作系统
解决方案
网站所有者可以看到此信息。
- 蜘蛛的名字。你可以改变任何你想要的
- 您可以使用 VPN 或代理来更改 IP 地址。
- 您正在使用的浏览器。要更改此设置并查找
USER_AGENT
删除评论,您可以轻松地在谷歌上搜索其他用户代理。 饼干。Scrapy 默认启用 cookie。转到设置并查找
COOKIES_ENABLED
删除评论,以便将其设置为 False。这将使抓取工作更加隐蔽。并发请求。在设置中也是如此。这是您同时提出的请求数。最好降低数字,这样对网站更友好。
推荐阅读
- javascript - 在 Forge Viewer 中加载多个模型时出现内存不足错误
- android - AWS Kinesis Video Streaming 与 Android 应用程序上的 AWS Rekognition
- javascript - 正则表达式:如何限制字母数字字段中的最大整数数
- apache-flink - 在 Flink 中,我可以在同一个 slot 中拥有一个 operator 的多个子任务吗?
- c - C中的布尔数组和按位运算
- python - Cuda 计算能力 3.0。所需的最低 Cuda 能力为 3.7
- python - 无法从 trivago.com 获取酒店定价详情
- string - 无法将类型“IO String”与“[Char]”匹配
- php - 基于日期时间差异的单独组数组
- python - 在语音识别中解码 utf8 错误回溯