python - 使用 Python 从网站查询数据(网页抓取)时,如何避免被服务器阻止?
问题描述
我试图使用 python 请求和机械化从网站收集信息。这个过程需要我发布一些信息,然后从该网站获取结果。我在 Python 中使用 for 循环来自动化这个过程。但是,大约 500 次查询后,我被告知由于查询率高而被阻止。每次查询大约需要 1 秒。我在网上使用了一些软件,他们可以毫无问题地查询多个数据。谁能帮助我如何避免这个问题?谢谢!
不知道如何解决这个问题。
--- 我正在循环这个过程(通过自动更改案例编号)并将数据导出到 csv....
经过一番查询,我被告知我的IP被阻止了。
解决方案
- 请求之间的最佳随机延迟时间。
- 每个请求的随机真实用户代理。
- 启用 cookie。
- 使用工作代理池并为每个请求选择一个随机代理。
推荐阅读
- hibernate - 一对一单向添加唯一约束
- sql - 如何从 URL 中提取某些级别的网址?
- c# - 我如何在这个例子中添加一个静态 Main() 方法?
- c# - 如何在 Android-Unity3D 应用程序中打开 PDF?
- c# - C# ASP.NET 在没有 JSON.NET 的情况下将 JSON 解析为数据集
- javascript - 我应该如何处理 React 组件库中的国际化?
- mysql - 在MySQL中设置变量等于列
- c# - 是否存在与 SQL 中的 LAG() 函数等效的实体的 linq?
- c# - 快捷键,特别是对话框 WPF 中的 alt 键
- java - 用于从 xml-schema 到 java 的 unicode 中拉丁脚本子集的 RegEx