python - 使用 Scrapy 或 Selenium 抓取页面时捕获后续 HTTP 请求
问题描述
当我抓取一个页面时,通常会有多个由第一个 GET 请求触发的空心 HTTP 请求,或者包含对象(图像、脚本、样式表),或者通过 javascript 动态触发(逐步加载的内容)。
我想捕获这些请求,包括请求 URL 和响应。有没有办法用 Scrapy/Spalsh 或 Selenium 来做到这一点?我目前正在考虑的解决方案是将 Scrapy 与 Scapy 结合起来,但如果有更简单的方法,我不想过度设计它。
解决方案
推荐阅读
- docker - OCI 运行时创建失败:container_linux.go:345
- c# - 托管路径站点/MySite 不是此租户中的托管路径
- linux - 为什么linux(Swapper)的空闲任务在禁用抢占的情况下运行?
- spring-boot - Oauth Kubernetes 重定向
- c - 如何清除 C for 循环中的缓冲区?
- python - 三角形长度检查
- javafx - JavaFX TableView 上下文菜单获取选定的 ID
- php - 将变量添加到类名
- c# - netcore 3.1 中的 AssemblyLoadContext.Default 解析插件类型,但当插件使用传递依赖时无法执行其实例
- reactjs - Reactjs - 使用本地数组时切换开关不起作用