python - 数据抓取 - 字段值 - 问题
问题描述
我想从这个网站获得有关感染人数的实际信息:https: //www.gov.pl/web/koronawirus/wykaz-zarazen-koronawirusem-sars-cov-2
我的代码看起来像:
import requests
from bs4 import BeautifulSoup
adresURL = 'https://www.gov.pl/web/koronawirus/wykaz-zarazen-koronawirusem-sars-cov-2'
res = requests.get(adresURL)
soup = BeautifulSoup(res.text, 'html.parser')
data = soup.select('.details-property-value')
print(data)
结果我收到:
[<div class="details-property-value" tabindex="0">{{selectedRecord[commonColumns[index]] || '-'}}</div>]
任何想法如何获得字段的价值?我错过了什么吗?
解决方案
我猜你正试图刮掉该页面上的表格。看起来 HTML 中包含了一些 JSON:
import requests
from bs4 import BeautifulSoup
import json
url = "https://www.gov.pl/web/koronawirus/wykaz-zarazen-koronawirusem-sars-cov-2"
response = requests.get(url)
response.raise_for_status()
soup = BeautifulSoup(response.content, "html.parser")
data = json.loads(soup.find("pre", {"id": "registerData"}).text)
print(data)
推荐阅读
- c# - .NET Core csproj PublishProfileName 在构建时有一个值
- sql-server - 当表超过 2GB 时,有什么方法可以在 MS Access 中留下“前端”?
- r - 使用 R 为 xml 文件中的所有节点提取具有相同名称的属性
- json - 由于 CSRF 检查,REST API 同时发布具有不同属性的两个请求失败并显示 403 状态代码
- google-sheets - 转置多列的唯一值
- python - 如何递归组合列表中的元素对?
- flutter - 如何在不使用构建器的情况下自动滚动页面视图并产生一些延迟?
- r - 需要向量化字符串上的函数
- laravel - Laravel 与多个函数的多对多关系
- android - Kotlin 中有垃圾收集器吗?