首页 > 解决方案 > 可以收集哪些关于“网站第三方”的信息?

问题描述

我收集了网站提出的所有请求,旨在通过网站提出的请求识别第三方。我使用 selenium 和 WebDriver 来做到这一点。

这些请求可以由网站源代码中的 JavaScript 发出,也可以由网页从广告中动态调用,也可以由 Google、DoubleClick 或 Facebook 发起。这些请求有助于跟踪这些网站在有或没有用户同意的情况下共享的数据。

您可以在此 excel 文件中看到浏览器想要加载此网站时的请求示例:www.focuscamera.com/ :

https://drive.google.com/file/d/16wNA0dFUehrjPww31TAIj8GZUZ05LsIU/view?usp=sharing

我的问题是:

1- 如果我倾向于收集有关第三方的一些信息,哪种 HTTP 标头字段可以用于我的分析?我的目标是区分和区分第三方行为!

例如,请求中的字段content-length表示实体主体的大小。那么内容长度较高的请求是否意味着第三方接收并收集了更多的数据/信息?

2-内容长度到底表示什么?“HTTP 请求正文数据”究竟包含什么?

3- 如果我的目标是区分和区分第三方行为,是否还有其他 HTTP 标头字段可以使用?(我收集的字段列表可以在我之前分享的excel文件的sheet1中找到)

4- 如果我旨在区分和区分第三方行为,我可以使用互联网上的任何其他信息吗?例如,我使用cookiepedia.co.uk以了解第三方提供什么样的服务?是功能、性能还是定位/广告?

标签: seleniumcookieshttprequesttrackingprivacy

解决方案


听起来你可能在这里重新发明轮子。看看 https://webbkoll.dataskydd.net;他们在您喜欢的任何网站上提供大量安全和隐私分析。使用https://requestmap.webperf.tools生成漂亮的可视化请求图:

对焦相机图像映射

尝试在wired.com 和forbes.com 等网站上使用该工具,看看它会变得多么糟糕!

具体回答您的问题:

  1. 标头并不是非常有用,因为它们每个请求中都存在(更有趣的是请求本身),但从隐私角度来看,重要的是RefererSet-cookie. Content-length 确实告诉你请求体有多大——在 GET 请求中总是为 0,因此通常被省略——大的 post 请求表明正在传输更多数据,但这可能是由于效率低下而不是其他原因.

  2. Content-length 表示 POST 请求正文中数据的长度(以字节为单位)。HTTP 请求正文可以包含任何类型的数据:文本、图像、视频、音频、格式化数据。

  3. 有一些,但大多数标头是功能性的而不是语义性的,与使请求实际工作有关。请求的发生比它们包含的内容更有趣

  4. 您不一定能从请求本身判断第三方提供什么样的服务,但他们将要提供的域更有趣。例如,任何访问 doubleclick.com 的内容都将与广告和跟踪相关,因为该域已知用于什么用途(Webbkoll 将这些称为“已知跟踪器”);所以你是正确的,像 cookiepedia 这样的网站可以帮助你找出特定服务的作用。功能/性能/配置文件之间的划分主要是由广告公司为他们的行为辩解的,你无法分辨他们使用数据的目的,只有他们是否在接收数据,以及他们正在接收什么数据(因为你可以查看他们使用浏览器开发人员工具发出的请求中的内容)。澄清一下 - 网站可能会收到您的全名和地址,但绝对不做任何事情;但是您无法通过查看发送的数据来判断这一点。在隐私方面,最好假设最坏的情况(因为广告公司绝对不能被信任!),所以如果他们正在接收数据,假设它会被滥用。


推荐阅读