python - 基于 VIEWSTATES 从网页中抓取数据
问题描述
我正在尝试抓取此链接上所有文档的详细信息。
我面临的问题是该站点是使用 ASP.NET 创建的,而 Viewstates 不是我直接访问数据的,我尝试了 beautifulSoup、Scrapy 和 Selenium 的混合,但无济于事。数据由 12782 个文档组成,我需要从从上述页面上返回结果的每个条目重定向的页面中提取其 pdf 下载链接。
该站点在此处也有一个 API ,但这里的问题是它在任何给定时间点仅返回 2000 个数据点,因此约 12k 数据点是毫无疑问的。
有人可以帮我解决以下任何一项:
- 创建一个刮板以获取 pdf 链接
- 生成查询以从 API 获取所有数据
- 任何有助于我生成链接以获取 API 查询的重复关系
- 使用 API 中的请求部分将所有记录同时发送到您的电子邮件
理想情况下,python 中的解决方案会很棒,但如果你能帮我获取所有链接的 csv 文件,那也可以。提前致谢!
解决方案
我最终通过使用位于此处的请求功能解决了这个问题。
它接受了一个特定的查询和我的电子邮件地址,并向我发送了我需要的整个数据转储。从那个数据转储中,我可以使用所有的 pdf 链接。
推荐阅读
- javascript - Javascript 函数不能像我想要的那样工作
- javascript - webpack 多个源文件夹
- sql - 如果满足条件,SQL 将状态应用于帐户的每一行
- oracle - Oracle 数据建模器不保存 dmd 文件
- java - 从 Python 访问 Hadoop -- java.io.IOException: 管道已结束
- python - PyTorch 和精确解析表达式的区别
- javascript - 如何将我的选择放在我的开关旁边?
- jquery - 为文本区域中的每个匹配项创建一个函数
- html - 无法使用 CSS Grid 消除 DIV 中图像下方的间隙
- c++ - Qt3D 过滤实体