javascript - 如何使用 puppeteer 获取网页上的所有可点击元素?
问题描述
出于网络抓取的目的,我想找到网站上所有可以使用标签“a”访问的 URL。参考下面的脚本
// Get all urls in the page
let urls = await page.evaluate(() => {
let results = [];
let items = document.querySelectorAll('a');
items.forEach((item) => {
results.push({
url: item.href,
});
});
现在隐藏了一些 URL,可以通过单击页面上的元素来访问它们。如何使用 puppeteer 或 nodejs 获取页面上所有可点击元素的列表?
解决方案
推荐阅读
- python - Python 网页抓取 Robinhood 不准确
- bash - 脚本 - 函数脚本可见性中的分叉(背景)变量
- c++ - 读取文本文件并存储到数组中
- python - ValueError 的 Python 断言
- arrays - Bash - 如何将数组元素拆分为列表
- java - 使用 TagExtraInfo 类 org.apache.taglibs.standard.tei.ForEachTEI for 'c:forEach; 遇到 A 类问题
- reactjs - 在组件渲染之前获取数据,Reactjs
- recaptcha - 如何在 JAVA 中实现 google recaptcha 检测密码泄漏和违反凭据?
- python - Python Boto3 显示最后一条记录的信息不完整
- php - 为什么在 HTML FORM 的可空字段中插入一个值会给我一个 NULL,即使它不是?