首页 > 解决方案 > 如何从存储在请求 url 中的一串 html 代码中刮取信息?

问题描述

我想要一份 SLC 政治的所有捐助者的名单以及他们的地址。而不是等待我的开放记录请求,我只想刮掉它。我没有使用原始 url,而是使用了请求 url,但随后它打开了一串我不知道如何从中提取信息的 html 代码。

我查看了包含 SLC 政治不同捐助者信息的页面(https://dotnet.slcgov.com/Attorneys/CampaignFinance_Public/#/Contributors )。好吧,显然我无法使用上面的 url 进行抓取,因为如果我不点击任何字母,它不会显示任何内容,所以我在选择 A 之后打开了请求 url,例如。所以我得到的网址变成了这样:https ://dotnet.slcgov.com/Attorneys/CampaignFinance_Public/api/CampaignFinanceAPI/GetContributorsByStartingIndex?pIndexCharacter=A 似乎是我可以使用的东西。但是第二个 url 打开一串纯代码,每个捐赠者的信息列表作为一个单独的项目。我以前从来没有摆脱过这个。如何分解代码并告诉 python 我希望将每一行分开并存储到不同的单元格中?有没有办法做到这一点?

标签: python

解决方案


创建一个 HTTP GET 请求以获取数据,并将其存储在一个变量中。

req = requests.get(url = FETCHED_URL)
data = req.json()

该变量包含一个字典列表。通过迭代访问列表中的每个字典。


推荐阅读