首页 > 解决方案 > 抓取一个使用 javascript 注入 html 的网站

问题描述

我正在尝试使用 Node.JS 抓取网站,但是在抓取 html 文件时,出现的内容是注入 JavaScript 的脚本标签,在查看有问题的 JavaScript 文件后,我发现我正在尝试的文本似乎是正确的刮。将此脚本注入 html 后,如何抓取文档?有办法吗?谢谢

标签: node.jsweb-scraping

解决方案


我认为您需要使用一些无头浏览器,它会像普通网络浏览器一样评估 JavaScript。然后,在页面加载后,您可以像在 Chrome 控制台窗口(例如)中那样在加载的页面上运行自己的 JavaScript 或访问 HTML 元素。

对于 node.js,有Puppeteer,我多次使用它从 SPA Web 应用程序中抓取数据。


推荐阅读