python - 如何从存储在请求 url 中的一串 html 代码中刮取信息?
问题描述
我想要一份 SLC 政治的所有捐助者的名单以及他们的地址。而不是等待我的开放记录请求,我只想刮掉它。我没有使用原始 url,而是使用了请求 url,但随后它打开了一串我不知道如何从中提取信息的 html 代码。
我查看了包含 SLC 政治不同捐助者信息的页面(https://dotnet.slcgov.com/Attorneys/CampaignFinance_Public/#/Contributors )。好吧,显然我无法使用上面的 url 进行抓取,因为如果我不点击任何字母,它不会显示任何内容,所以我在选择 A 之后打开了请求 url,例如。所以我得到的网址变成了这样:https ://dotnet.slcgov.com/Attorneys/CampaignFinance_Public/api/CampaignFinanceAPI/GetContributorsByStartingIndex?pIndexCharacter=A 似乎是我可以使用的东西。但是第二个 url 打开一串纯代码,每个捐赠者的信息列表作为一个单独的项目。我以前从来没有摆脱过这个。如何分解代码并告诉 python 我希望将每一行分开并存储到不同的单元格中?有没有办法做到这一点?
解决方案
创建一个 HTTP GET 请求以获取数据,并将其存储在一个变量中。
req = requests.get(url = FETCHED_URL)
data = req.json()
该变量包含一个字典列表。通过迭代访问列表中的每个字典。
推荐阅读
- c# - 我必须从数据库中选择相同的 projectId、相同的资源 Id 行
- node.js - 在 Electron 应用中,使用 webpack/electron-builder 打包后,在 worker_threads 提示 MODULE_NOT_FOUND 中需要第三方模块
- cube - 未能获得推荐的 Cuboid
- css - 媒体查询不适用于 CSS 网格布局
- ios - ios swift - 将设备令牌保存为打印不同值的数据格式
- reactjs - 何时获取数据以及何时更新状态?
- graphql - 如何使用 graphql codegen 处理 X-Hasura-Role
- c# - 如何使用 C# 更新 Excel 数据透视表数据
- html - 如何将类 css 添加到 php?
- ruby - 计算图中从任何给定顶点到另一个顶点的所有可能路径的正确算法是什么?