首页 > 解决方案 > 如何使用 axios 和 Cheerio 实现多页抓取

问题描述

您好,我正在使用带有cheerio 的 axios 来抓取一些数据。我想抓取多个页面,url 结构类似于 example.com/?page=1。我如何用计数器抓取每一页?

axios({
    method: "get",
    url:
      "https://example.com/?page=",
    headers: {
      "User-Agent":
        "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36"
    }
  }).then(res => {

标签: node.jsaxioscheerioscrape

解决方案


我相信有多种方法可以实现该解决方案,但基本上您需要以编程方式执行所有axios方法并使用 Cheerio 解析所有方法。

如果您知道要抓取多少页

您可以创建一个简单的for循环,并axios使用生成的 url 将所有函数一一推送到一个数组中。然后你可以用Promise.all

const promises = [];

for(let page = 0; page <= 5; page ++){
     promises.push(
          axios({method: "get",url:`https://example.com?page=${page}`})
          .then(res => {
              // Parse your result with Cheerio or whatever you like
          })
     );
}

// You can pass the responses on this resolve if you want.
Promise.all(promises).then(...)

如果您正在抓取列表页面并且总页码未知

然后,您可以创建一个异步/递归函数来分派请求axios并有条件地迭代。通过这种方式,当您与下面的解决方案进行比较时,您还可以减少内存的最大使用量。而且它会更慢,因为请求不会并行。

// The function below is kind-of pseudo code so don't try to copy/paste it :) 
const dispatchRequest = (page) => {
     const response = axios({url: `https://example.com?page=${page}`});
     // Ex: You can parse the response here with Cheerio and check if pagination is not disable
     if(something){
          return dispatchRequest(page+1);
     }
     else{
         return response;
     }

}

上面的解决方案当然有缺点。如果您被目标网站阻止或您的请求以某种方式失败,您将没有机会重试相同的请求或轮换您的代理以绕过目标网站的安全性。

我建议您实现 aqueue并将所有请求调度功能放在那里。通过这种方式,您可以检测失败/问题并再次将失败的请求排入队列。您还可以在支持下实施上述两种解决方案queue。您可以并行运行它并更好地管理您的内存/CPU消耗方式。

您也可以使用 SDK。我看到有几个抓取 SDK 为您提供了整个工具集,因此您不会重新发明轮子。


推荐阅读