首页 > 解决方案 > 有没有办法对网站上的每个页面进行截图?

问题描述

我们有几个旧网站正在进行升级。能够截取每个页面然后 md5 将两个域的结果相加,然后测试呈现的所有内容是否 100% 匹配,这将很有用。

我不确定如何执行此操作 - 我们查看了cheerio哪些会抓取该网站但无法截屏,以及可以截取屏幕截图但不能抓取该网站的 nightwatch。有没有人有这样做的经验?

标签: javascriptphantomjsweb-crawlernightwatch.jscheerio

解决方案


一个简单的解决方案是在无头模式下使用 Chrome,它也可以通过Puppeteer等许多 Node 模块进行控制。

取自谷歌开发者页面:

chrome --headless --disable-gpu --screenshot https://www.chromestatus.com/

关于抓取,您可以混合使用 Cheerio 和 Puppeteer 来抓取链接并截取屏幕截图。或者,您可以找到一些允许导出包含所有网站 URL 的站点地图(示例)的工具,此时应该很容易遍历它们并截取每个 URL。


推荐阅读