首页 > 解决方案 > 使用 Scrapy 或 Selenium 抓取页面时捕获后续 HTTP 请求

问题描述

当我抓取一个页面时,通常会有多个由第一个 GET 请求触发的空心 HTTP 请求,或者包含对象(图像、脚本、样式表),或者通过 javascript 动态触发(逐步加载的内容)。

我想捕获这些请求,包括请求 URL 和响应。有没有办法用 Scrapy/Spalsh 或 Selenium 来做到这一点?我目前正在考虑的解决方案是将 Scrapy 与 Scapy 结合起来,但如果有更简单的方法,我不想过度设计它。

标签: pythonseleniumweb-scrapingscrapy

解决方案


推荐阅读