apify - 从多个 sitemap.xml 文件中抓取 url
问题描述
我正在为一个页面构建一个 apify 演员,其中所有需要的 url 都存储在不同的 sitemap.xml 文件中。文件名是静态的,但不知道如何将几个 sitemap.xml 文件添加到 actor。
下面是带有 1 个 xml 文件的工作代码。不知何故需要在多个 url 上做一个 for-each,但由于它们大约有 600 个,最好是通过从 csv 中提取所有站点地图,然后为每个 url 抓取,然后抓取每个 url。
const Apify = require('apify');
const cheerio = require('cheerio');
const requestPromised = require('request-promise-native');
Apify.main(async () => {
const xml = await requestPromised({
url: 'https://www.website.com/sitemap1.xml’, // <- This part needs to accept input of about 600 sitemap.xml urls in total
headers: {
'User-Agent': 'curl/7.54.0'
}
});
// Parse sitemap and create RequestList from it
const $ = cheerio.load(xml);
const sources = [];
$('loc').each(function (val) {
const url = $(this).text().trim();
sources.push({
url,
headers: {
// NOTE: Otherwise the target doesn't allow to download the page!
'User-Agent': 'curl/7.54.0',
}
});
});
const requestList = new Apify.RequestList({
sources,
});
await requestList.initialize();
// Crawl each page from sitemap
const crawler = new Apify.CheerioCrawler({
requestList,
handlePageFunction: async ({ $, request }) => {
await Apify.pushData({
url: request.url
});
},
});
await crawler.run();
console.log('Done.');
});
每个 sitemap.xml 都有一个静态链接/名称,但它们的内容每天都在变化,站点地图中的 url 总数为 60-70.000,它是我最终需要获取的那些 url :-)
解决方案
最可靠的方法是使用Apify Crawler 类的强大功能。当然有很多方法可以解决这个问题。
最简单的解决方案是使用一个并为站点地图 URL 和最终 URLCheerioCrawler
提供单独的逻辑。handlePageFunction
不幸的是,CheerioCrawler
无法解析 XML(可能会在不久的将来修复)所以我们将不得不使用 2 个爬虫。
对于 XML 解析的第一部分,我们将使用BasicCrawler
. 它是 Apify 爬虫中最通用的,因此可以轻松使用您已有的代码。我们会将提取的 URL 推送到requestQueue并在第二个爬虫中处理它们,该爬虫可以大部分保持原样。
const Apify = require('apify');
const cheerio = require('cheerio');
const requestPromised = require('request-promise-native');
Apify.main(async () => {
// Here we will push the URLs found in the sitemaps
const requestQueue = await Apify.openRequestQueue();
// This would be better passed via INPUT as `const xmlUrls = await Apify.getInput().then((input => input.xmlUrls))`
const xmlUrls = [
'https://www.website.com/sitemap1.xml',
// ...
]
const xmlRequestList = new Apify.RequestList({
sources: xmlUrls.map((url) => ({ url })) // We make smiple request object from the URLs
})
await xmlRequestList.initialize();
const xmlCrawler = new Apify.BasicCrawler({
requestList: xmlRequestList,
handleRequestFunction: async ({ request }) => {
// This is basically the same code you have, we just have to push the sources to the queue
const xml = await requestPromised({
url: request.url,
headers: {
'User-Agent': 'curl/7.54.0'
}
});
const $ = cheerio.load(xml);
const sources = [];
$('loc').each(function (val) {
const url = $(this).text().trim();
sources.push({
url,
headers: {
// NOTE: Otherwise the target doesn't allow to download the page!
'User-Agent': 'curl/7.54.0',
}
});
});
for (const finalRequest of sources) {
await requestQueue.addRequest(finalRequest);
}
}
})
await xmlCrawler.run()
// Crawl each page from sitemap
const crawler = new Apify.CheerioCrawler({
requestQueue,
handlePageFunction: async ({ $, request }) => {
// Add your logic for final URLs
await Apify.pushData({
url: request.url
});
},
});
await crawler.run();
console.log('Done.');
});
推荐阅读
- react-native - react-native-push-notification 无法在 android 中构建
- javascript - Sinon Stub JavaScript 方法链
- angularjs - Angularjs uib-collapse 表列隐藏和显示的行为
- xml - Linearlayout messed up with the horizontal alignment
- python - 如何在决策树中获取特征重要性?
- php - 如何根据 WordPress 中的当前每周日期设置默认类别?
- javascript - access count variable defined in setinterval javascript
- python-3.x - Print output to separate text files
- angular - 为什么我的反应式表单验证在 Angular 中失败
- javascript - 使用 JavaScript 进行媒体查询