python - 如何使用 scrapy 抓取 Instagram 查询?
问题描述
我现在正在尝试抓取 instagram 帖子查询的纯文本(“ https://www.instagram.com/graphql/query/query_id=17888483320059182&id=USER_ID&first=50 ”)并且只得到 403 和 301 响应。任何人都知道我怎样才能绕过这些响应或抓取数据?
解决方案
Instagram 使用默认的 Scrapy User-Agent阻止请求。
您可以更改 Scrapy 的 User-Agent,使其使用看起来像真正浏览器的用户代理。但是您仍然会遇到抓取 Instagram 的问题,如本讨论中所述:请求限制等。
我提醒您,抓取 Instagram 违反了他们的服务条款,因此如果检测到抓取,他们最终会阻止您的帐户和/或 IP。
推荐阅读
- c++ - 使用构造函数初始化枚举
- r - R中的特殊任务
- postgresql - 对 Postgres 枚举类型使用“enumName”ColumnOption 时重复迁移
- sql-server - “登录失败。登录来自不受信任的域,不能用于 Windows 身份验证
- command-line - NPM 全局安装但无法从项目运行命令
- vuejs2 - 如何使用 vuex 和 laravel 上传带有标题和描述的文件
- javascript - Google Analytics Management API - 当我尝试更新 Google Analytics 视图时出现“未知名称”:根元素必须是消息
- flutter - 颤动中的下拉按钮:值未编译
- oauth-2.0 - oauth 的 smartsheet-Accesstoken 再生
- c# - 如何在我的 DI 容器中使用 IDataProtectionProvider 编写测试?