python - 网页抓取 - 页面源中未显示的内容
问题描述
我正在尝试从网站上抓取信息:https ://foreclosures.cabarruscounty.us/ 。所有数据似乎都是在重复卡中生成的,但是当我查看页面源时找不到信息。我曾尝试使用 Selenium 等 Web 驱动程序,但仍然无法看到我希望抓取的内容。我希望能够提取每个条目的所有重复数据。
driver = webdriver.Chrome(ChromeDriverManager().install(), options=chrome_options)
url = 'https://foreclosures.cabarruscounty.us/'
driver.get(url)
web_url = driver.page_source
soup = bs.BeautifulSoup(web_url, 'html.parser')
print(soup)
我如何能够访问或查看重复卡本身的内容?
解决方案
您看到的数据是从外部 URL 加载的,您只能使用requests
模块来获取它:
import json
import requests
url = 'https://foreclosures.cabarruscounty.us/dataForeclosures.json'
data = requests.get(url).json()
# uncomment this to see all data:
# print(json.dumps(data, indent=4)
# print some data to screen:
for d in data:
for k, v in d.items():
print('{:<5}: {}'.format(k, v))
print('-' * 80)
印刷:
ID : 2062
TM : 04-086 -0010.00
S : COMPLAINT/JUDGMENT
C : 20-CVD-1754
R : 56235032510000
T : 14,850
O : W O L INC A NC CORPORATION
M : 3,703
SD : PENDING
ST : PENDING
D : S/S DALE EARNHARDT BLVD
A : ZACCHAEUS LEGAL SVCS
CO : www.zls-nc.com
SL : 77 UNION ST S CONCORD NC 28025
SP : COURTHOUSE STEPS
U : https://foreclosures.cabarruscounty.us/PropertyPhotos/2062.jpg
OR : 3
--------------------------------------------------------------------------------
ID : 2061
TM : 04-007 -0006.00
S : COMPLAINT/JUDGMENT
C : 20-CVD-1070
R : 56036654730000
T : 135,190
O : PITTS H M PITTS H M ESTATE
M : 9,475
SD : PENDING
ST : PENDING
D : SOUTH SIDE MOORESVILLE RD
A : ZACCHAEUS LEGAL SVCS
CO : www.zls-nc.com
SL : 77 UNION ST S CONCORD NC 28025
SP : COURTHOUSE STEPS
U : https://foreclosures.cabarruscounty.us/PropertyPhotos/2061.jpg
OR : 3
--------------------------------------------------------------------------------
...and so on.
推荐阅读
- reactjs - 我的反应代码是否使用端口 3000 而不是端口 80?
- python - 根据 PyTorch 中的分割图在每个区域中采样
- layer - DECK.GL 右键单击事件
- php - 安装 Laravel 收银员的 PHP 致命内存错误
- python - Scikit-Learn GradientBoostingRegressor min_impurity_decrease 要设置哪个值?
- spring-boot - Traefik 2.2 网关超时问题
- javascript - 如何使图像表现得像一个复选框并将其值发送到后端
- python - 在 PyTorch 张量中的元素之间执行 Delta 函数
- php - Google Calendar API - 客户端未经授权无法使用此方法检索访问令牌,或者客户端未获得任何请求范围的授权
- python-3.x - 如何避免在 Django 中循环导入模型