首页 > 解决方案 > 有没有办法抓取使用 python 加载的数据

问题描述

我正在从网站上抓取数据。我发现表格数据在页面的源代码中显示为加载。我想知道如何使用 python 收集这些数据。它似乎是一个反应 js 网络应用程序。

网址:https ://www.ycombinator.com/companies/

标签: pythonweb-scrapingbeautifulsoupscrapy

解决方案


如果您转到网络选项卡,您将在下面找到以 json 格式返回数据的 API。你不需要seleniumbeautifulsoup

https://api.ycombinator.com/companies/export.json

这是下面的代码。

import requests
res=requests.get("https://api.ycombinator.com/companies/export.json?").json()
for item in res:
    try:
      print('name:' + item['name'])
    except:
        continue
    try:
      print('URL:' + item['url'])
    except:
        continue

    try:
        print('batch:' + item['batch'])

    except:
        continue

    try:
        print('Description:' + item['description'])
    except:
        continue

API 快照

在此处输入图像描述

回应

在此处输入图像描述


推荐阅读