node.js - 如何使用 axios 和 Cheerio 实现多页抓取
问题描述
您好,我正在使用带有cheerio 的 axios 来抓取一些数据。我想抓取多个页面,url 结构类似于 example.com/?page=1。我如何用计数器抓取每一页?
axios({
method: "get",
url:
"https://example.com/?page=",
headers: {
"User-Agent":
"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36"
}
}).then(res => {
解决方案
我相信有多种方法可以实现该解决方案,但基本上您需要以编程方式执行所有axios
方法并使用 Cheerio 解析所有方法。
如果您知道要抓取多少页
您可以创建一个简单的for
循环,并axios
使用生成的 url 将所有函数一一推送到一个数组中。然后你可以用Promise.all
const promises = [];
for(let page = 0; page <= 5; page ++){
promises.push(
axios({method: "get",url:`https://example.com?page=${page}`})
.then(res => {
// Parse your result with Cheerio or whatever you like
})
);
}
// You can pass the responses on this resolve if you want.
Promise.all(promises).then(...)
如果您正在抓取列表页面并且总页码未知
然后,您可以创建一个异步/递归函数来分派请求axios
并有条件地迭代。通过这种方式,当您与下面的解决方案进行比较时,您还可以减少内存的最大使用量。而且它会更慢,因为请求不会并行。
// The function below is kind-of pseudo code so don't try to copy/paste it :)
const dispatchRequest = (page) => {
const response = axios({url: `https://example.com?page=${page}`});
// Ex: You can parse the response here with Cheerio and check if pagination is not disable
if(something){
return dispatchRequest(page+1);
}
else{
return response;
}
}
上面的解决方案当然有缺点。如果您被目标网站阻止或您的请求以某种方式失败,您将没有机会重试相同的请求或轮换您的代理以绕过目标网站的安全性。
我建议您实现 aqueue
并将所有请求调度功能放在那里。通过这种方式,您可以检测失败/问题并再次将失败的请求排入队列。您还可以在支持下实施上述两种解决方案queue
。您可以并行运行它并更好地管理您的内存/CPU消耗方式。
您也可以使用 SDK。我看到有几个抓取 SDK 为您提供了整个工具集,因此您不会重新发明轮子。
推荐阅读
- c++ - 如何解决linux中GLFW应用静态编译的问题?
- r - 在 R 中创建小标题
- oracle - 可编辑的 oracle 顶点表
- python - 有没有办法用 python 函数评论图像
- postgresql - docker中的Postrgresql curl访问
- python - 在 Python 中实现请求 api 的重试功能,无需任何库
- javascript - 如何在自定义元素中添加按钮单击事件
- ruby-on-rails - 使用 Rails API / Rspec / Postgresql 问题的 postgres 问题
- apache-kafka - 尝试调用不存在的方法:ContainerProperties.setAckOnError()
- java - 下载 gradle 插件时在 gradle build 中替换 jcenter