首页 > 解决方案 > Screaming Frog 自定义提取未返回预期结果

问题描述

我目前正在使用 Screaming Frog 从我的公司正在迁移到新平台的网站上抓取数据。

我的 XPath 如下所示:

//div[@class="cs-settlements cell medium-5 border-right padding-large margin-tiny text-center border"]//h2

//div[@class="cs-settlements cell medium-5 border-right padding-large margin-tiny text-center border"]//div[@class="cramount"]/p

我要提取的元素在页面上重复。我只想要这些元素中的 H2 和 p 标签。

对于那些特定的元素,HTML 结构是这样的

<div class="cs-settlements cell medium-5 border-right padding-large margin-tiny text-center border" data-equalizer-watch>
<h2>Title</h2>
<hr class="center">
<div class="cramount"><p>$109,000</p></div>

返回的数据包含的内容远远超过这些元素的 innerHTML。对于 H2,它返回该元素以及页面上的所有其他内容,包括内联 javascript 和页面架构。它对 p 标签也是如此。在这两种情况下,我想要的数据首先出现,然后附加额外的东西。

我还注意到,在返回的数据中,这些元素(h2 和 p)似乎没有正确关闭,即使它们在我的 HTML 中也是如此。关于为什么会这样的任何想法?我通过 W3 Validator 运行了该页面,没有结构性问题。

标签: htmlweb-scrapingxpath

解决方案


推荐阅读