xpath - Xpath 规则:尝试在网页上的特定标题标签下提取链接列表
问题描述
提前感谢您的时间和支持。
我正在对一个新网站发布进行 QA,作为其中的一部分,我正在运行一个名为 Screaming Frog 的爬虫工具来评估网站结构的某些部分。
爬行工具非常强大,允许通过我现在尝试使用的 Xpath 进行自定义提取。
我遇到的问题是我想拉出位于某些 recirc 模块中的特定链接。不幸的是,模块本身没有适当的 div 标签......所以我不得不使用 H3 模块标题作为我的标识符。
<h3>Further Reading:</h3>
<ul>
<li>Link 1</li>
<li>Link 2</li>
<li>Link 3</li>
<li>Link 4</li>
<li>Link 5</li>
</ul>
我希望能够提取进一步阅读列表中的链接值。
是否可以在文档中找到特定的进一步阅读标题,然后在单个 Xpath 请求中提取链接?
再次感谢你。我真的很喜欢学习 xpath 并在 Stack Overflow 上阅读它。
问候,
达里尔
解决方案
您可以使用following-sibling
轴:
//h3/following-sibling::ul/li
或者如果你想要一些具体的:
//h3[text() = 'Further Reading:']/following-sibling::ul/li
推荐阅读
- ms-access - 创建根据类别调整的计数器
- php - 阻止 PHAR 创建目录
- php - 数据未从 AndroidStudio 发送到 phpMyAdmin / 000webhost
- ios - 如何让我的 HeightAnchor 正常工作?
- qt - 在 QML 中将用户输入值转换为字符串
- javascript - 将第一组数字与字符串分开的最不容易出现问题的方法是什么?
- c# - 逆变和协方差是否意味着也使用相同的类型?
- javascript - 从用户输入jQuery中查找年龄
- node.js - @azure/cosmos in Azure Function ConnectionStringSetting Error
- java - 难以用 Java 中的字符串重复整个循环