selenium - 抓取angellist启动数据
问题描述
我想从这个网站 Angel.co 启动列表中抓取电子表格中的数据,我尝试了很多方法,但它显示错误。在电子表格中使用了 IMPORTXML、IMPORTHTML 它不起作用
格式:启动名称、位置、类别
提前感谢您的帮助。
尝试使用以下请求方法来抓取数据,但它没有显示输出。
import requests
URL = 'https://angel.co/social-network-2'
headers = {
"Host": "www.angel.co",
"User-Agent": "Mozilla/5.0 (X11; Ubuntu; Linux armv8l; rv:88.0)
Gecko/20100101 Firefox/88.0",
"Accept": "application/json, text/javascript, */*; q=0.01",
"Accept-Language": "en-US,en;q=0.5",
"Accept-Encoding": "gzip, deflate",
"Referer": "https://angel.co/social-network-2",
"X-Requested-With": "XMLHttpRequest",
"via": "1.1 google"
}
datas = requests.get(URL, headers=headers).json()
import re
for i in datas['data']:
for j in re.findall('class="uni-link">(.*)</a>',i['title']):
print(j)
解决方案
恐怕您将无法抓取此网页。
问题是他们使用了专门为防止这种自动机器人抓取而设计的 cloudflare 保护......
唯一的建议是接受这个事实,不要浪费你的时间......
推荐阅读
- c# - C# 错误中的 twitter 集成
- android - 尝试在 android studio 中添加库时出现 compileClassPAth 错误
- gcc - 在 gcc 中更改目标特定选项
- python - 如何将命令输出通过管道传输到 shell 中的 CSV 文件?
- node.js - 给出 composer network start 命令时无法配置 npm 代理
- java - Thymeleaf 选择标签导致异常
- java - StringBuffer 创建时,String 对象存储在内存中的什么位置?
- odbc - 有没有办法在 Knexjs 中连接 ODBC 数据源
- java - Gradle构建依赖表单外部go项目
- javascript - 实时 API 后端和前端