首页 > 解决方案 > 使用 nodejs 和 puppeteer 从维基百科页面抓取影片

问题描述

我正在尝试从维基百科获取电影。使用 puppeteer,我从检查元素中选择电影部分并复制XPath. 但是,我没有得到任何电影数据。


scrapers.js

const puppeteer = require("puppeteer")

    const scrapeProduct = async (url) => {
    const browser = await puppeteer.launch()
    const page = await browser.newPage()
    await page.goto(url)


    const [el] = await page.$x(`//*[@id="mw-content-text"]/div[1]/div[8]/div`)
    console.log("el=>", el)

    browser.close()
}


scrapeProduct("https://en.wikipedia.org/wiki/Werner_Herzog")

这就是我要进入的内容console.log(el)

https://hastebin.com/usozakisen.yaml

标签: javascriptnode.jsweb-scrapingpuppeteer

解决方案


el是一个 ElementHandle,而不是内容本身。您可以尝试获取该innerText句柄:

console.log(await el.evaluate(el => el.innerText));

推荐阅读