首页 > 解决方案 > 基于 VIEWSTATES 从网页中抓取数据

问题描述

我正在尝试抓取此链接上所有文档的详细信息。

我面临的问题是该站点是使用 ASP.NET 创建的,而 Viewstates 不是我直接访问数据的,我尝试了 beautifulSoup、Scrapy 和 Selenium 的混合,但无济于事。数据由 12782 个文档组成,我需要从从上述页面上返回结果的每个条目重定向的页面中提取其 pdf 下载链接。

该站点在此处也有一个 API ,但这里的问题是它在任何给定时间点仅返回 2000 个数据点,因此约 12k 数据点是毫无疑问的。

有人可以帮我解决以下任何一项:

理想情况下,python 中的解决方案会很棒,但如果你能帮我获取所有链接的 csv 文件,那也可以。提前致谢!

标签: pythonasp.netapiweb-scraping

解决方案


我最终通过使用位于此处的请求功能解决了这个问题。

它接受了一个特定的查询和我的电子邮件地址,并向我发送了我需要的整个数据转储。从那个数据转储中,我可以使用所有的 pdf 链接。


推荐阅读