首页 > 解决方案 > 抓取angellist启动数据

问题描述

我想从这个网站 Angel.co 启动列表中抓取电子表格中的数据,尝试了很多方法,但它显示错误。在电子表格中使用了 IMPORTXML、IMPORTHTML 它不起作用

格式:启动名称、位置、类别

提前感谢您的帮助。

尝试使用以下请求方法来抓取数据,但它没有显示输出。

import requests

URL = 'https://angel.co/social-network-2'


headers = {
   "Host": "www.angel.co",
   "User-Agent": "Mozilla/5.0 (X11; Ubuntu; Linux armv8l; rv:88.0) 
   Gecko/20100101 Firefox/88.0",
   "Accept": "application/json, text/javascript, */*; q=0.01",
   "Accept-Language": "en-US,en;q=0.5",
   "Accept-Encoding": "gzip, deflate",
   "Referer": "https://angel.co/social-network-2",
   "X-Requested-With": "XMLHttpRequest",
   "via": "1.1 google"
}

datas = requests.get(URL, headers=headers).json()
import re

for i in datas['data']:
    for j in re.findall('class="uni-link">(.*)</a>',i['title']):
    print(j)

标签: seleniumselenium-webdriverweb-scrapinggoogle-sheets-formula

解决方案


恐怕您将无法抓取此网页。

问题是他们使用了专门为防止这种自动机器人抓取而设计的 cloudflare 保护......

唯一的建议是接受这个事实,不要浪费你的时间......


推荐阅读