首页 > 解决方案 > 尝试使用 puppeteer 抓取网站并取回空对象

问题描述

我今天开始学习木偶戏,但遇到了一个问题。我试图创建一个 covid 跟踪器,我想从 worldometers 中获取信息。但是当我尝试取回信息时,它会返回一个包含空对象的数组。对象的数量与具有相同类别的标签数量相匹配,但它不显示任何信息。这是我的代码

const puppeteer = require("puppeteer")
async function getCovidCases(){
    const browser = await puppeteer.launch({
        defaultViewport: null,
        headless: false,
        slowMo: 250
    })
    const page = await browser.newPage()
    const url = "https://www.worldometers.info/coronavirus/#countries"
    await page.goto(url, {waitUntil: 'networkidle0'})
    await page.waitForSelector(".navbar-nav", {visible: true})
    const results = await page.$$eval(".navbar-nav", rows => {
        return rows
    })
    await console.log(results)
}
getCovidCases()

有人知道该怎么做吗?

标签: javascriptnode.jsobjectasync-awaitpuppeteer

解决方案


根据选择器,我假设您在此步骤中对导航栏项目感兴趣。

    const results = await page.$$eval(".navbar-nav", navBars => {
      return navBars.map(navBar => {
        const anchors = Array.from(navBar.getElementsByTagName('a'));
        return anchors.map(anchor => anchor.innerText);
      });
    })

这会产生[ [ 'Coronavirus', 'Population' ] ]并且可能对您有用。

如果$eval您只期望一个元素并且$$eval如果您期望多个元素,请使用。在回调中,您有对该 dom 元素的引用,但您不能直接返回它。如果您console.log有任何内容,它不会显示在 nodejs 终端中,而是显示在浏览器终端中。您返回的内容将被发送回nodejs,并且它需要可序列化(我认为)。你得到的东西navBar将被转换为一个空对象,而不是你想要的。这就是我映射它并将其转换为字符串 ( innerText) 的原因。

如果要抓取其他数据,则应使用另一个选择器 ( .nav-bar)。


推荐阅读