首页 > 解决方案 > 如何使用 scrapy 抓取 Instagram 查询?

问题描述

我现在正在尝试抓取 instagram 帖子查询的纯文本(“ https://www.instagram.com/graphql/query/query_id=17888483320059182&id=USER_ID&first=50 ”)并且只得到 403 和 301 响应。任何人都知道我怎样才能绕过这些响应或抓取数据?

标签: pythonweb-scrapingscrapyinstagram

解决方案


Instagram 使用默认的 Scrapy User-Agent阻止请求。

您可以更改 Scrapy 的 User-Agent,使其使用看起来像真正浏览器的用户代理。但是您仍然会遇到抓取 Instagram 的问题,如本讨论中所述:请求限制等。

我提醒您,抓取 Instagram 违反了他们的服务条款,因此如果检测到抓取,他们最终会阻止您的帐户和/或 IP。


推荐阅读