首页 > 解决方案 > Xpath 规则:尝试在网页上的特定标题标签下提取链接列表

问题描述

提前感谢您的时间和支持。

我正在对一个新网站发布进行 QA,作为其中的一部分,我正在运行一个名为 Screaming Frog 的爬虫工具来评估网站结构的某些部分。

爬行工具非常强大,允许通过我现在尝试使用的 Xpath 进行自定义提取。

我遇到的问题是我想拉出位于某些 recirc 模块中的特定链接。不幸的是,模块本身没有适当的 div 标签......所以我不得不使用 H3 模块标题作为我的标识符。

<h3>Further Reading:</h3>   
    <ul>
      <li>Link 1</li>
      <li>Link 2</li>
      <li>Link 3</li>
      <li>Link 4</li>
      <li>Link 5</li>
   </ul>

我希望能够提取进一步阅读列表中的链接值。

是否可以在文档中找到特定的进一步阅读标题,然后在单个 Xpath 请求中提取链接?

再次感谢你。我真的很喜欢学习 xpath 并在 Stack Overflow 上阅读它。

问候,

达里尔

标签: xpathdata-extraction

解决方案


您可以使用following-sibling轴:

//h3/following-sibling::ul/li

或者如果你想要一些具体的:

//h3[text() = 'Further Reading:']/following-sibling::ul/li

推荐阅读