首页 > 解决方案 > 一个站点在被爬虫爬取时可以获得哪些信息?

问题描述

我有一个单文件蜘蛛,它只抓取一个站点。网站所有者可以看到哪些信息?

在这里,我没有使用自定义设置。(所以这是默认设置)。

例子:

1.蜘蛛名称

2.IP

3.操作系统

标签: pythonscrapyweb-crawler

解决方案


网站所有者可以看到此信息。

  1. 蜘蛛的名字。你可以改变任何你想要的
  2. 您可以使用 VPN 或代理来更改 IP 地址。
  3. 您正在使用的浏览器。要更改此设置并查找USER_AGENT 删除评论,您可以轻松地在谷歌上搜索其他用户代理。
  4. 饼干。Scrapy 默认启用 cookie。转到设置并查找COOKIES_ENABLED删除评论,以便将其设置为 False。这将使抓取工作更加隐蔽。

  5. 并发请求。在设置中也是如此。这是您同时提出的请求数。最好降低数字,这样对网站更友好。


推荐阅读