html - 网页抓取 - h1 - 字体访问问题
问题描述
我是网络抓取的新手,在访问 HTML 和 CSS 代码时遇到了一些问题。
我想抓取以下网站的标题: https ://www.leaseplan.com/nl-nl/privatelease/onze-autos/4662/
点击检查后,我发现
<h1 class="u-margin-bottom-none u-margin-bottom@tablet" data-e2e-id="carName"><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">Fiat 500 - Lounge Hybrid </font></font></h1>
我想取出:Fiat 500 - Lounge Hybrid 并将其放入 excel 文件中。
我用了:
async function getPageData(url, page) {
await page.goto(url);
const title = await page.$eval(
"h1, id=carName",
(title) => title.textContent
);
但是,我不断收到错误:
(node:6216) UnhandledPromiseRejectionWarning: Error: Evaluation failed: DOMException: Failed to execute 'querySelector' on 'Document': 'h1[class=u-margin-bottom-none u-margin-bottom@tablet] .carName' is not a valid selector.
at __puppeteer_evaluation_script__:1:33
它与“h1,id=carName”有关,但我不确定如何以我的 scaper 识别并取出 Fiat 500 - Lounge Hybrid 的方式编写它
解决方案
推荐阅读
- angular - 将离子日期时间格式化为 Firebase 时间戳
- algorithm - O(n^2) 的空间复杂度
- javascript - 我们如何在单击时将Div用作完整按钮将激活其他div将处于非活动状态
- powershell - 如何知道 2 个视频之间的帧延迟,将音频从视频 1 同步到视频 2?
- android - 如何防止 android recaptcha 对话框关闭外部的 onclick?
- google-bigquery - GCP - 从 PubSub 到 BigQuery 的消息
- scala - scala模式匹配字符串序列中的值
- sql-server - 如果条目是通过在多个表中输入数据的存储过程进行的,如何从表中恢复数据
- python - 机器学习二分类
- python - Tensorflow:动态地将值附加到张量