html - Screaming Frog 自定义提取未返回预期结果
问题描述
我目前正在使用 Screaming Frog 从我的公司正在迁移到新平台的网站上抓取数据。
我的 XPath 如下所示:
//div[@class="cs-settlements cell medium-5 border-right padding-large margin-tiny text-center border"]//h2
//div[@class="cs-settlements cell medium-5 border-right padding-large margin-tiny text-center border"]//div[@class="cramount"]/p
我要提取的元素在页面上重复。我只想要这些元素中的 H2 和 p 标签。
对于那些特定的元素,HTML 结构是这样的
<div class="cs-settlements cell medium-5 border-right padding-large margin-tiny text-center border" data-equalizer-watch>
<h2>Title</h2>
<hr class="center">
<div class="cramount"><p>$109,000</p></div>
返回的数据包含的内容远远超过这些元素的 innerHTML。对于 H2,它返回该元素以及页面上的所有其他内容,包括内联 javascript 和页面架构。它对 p 标签也是如此。在这两种情况下,我想要的数据首先出现,然后附加额外的东西。
我还注意到,在返回的数据中,这些元素(h2 和 p)似乎没有正确关闭,即使它们在我的 HTML 中也是如此。关于为什么会这样的任何想法?我通过 W3 Validator 运行了该页面,没有结构性问题。
解决方案
推荐阅读
- sql - 只运行一次昂贵的查询并从中返回多个结果
- r - 如何根据使用两个因素的因素级别在 facet_wrap 中打破新行?
- python - 如何创建字典并使用 Python 中的 SQL 查询结果填充键和值?
- sql - Windows 中 Oracle 18c 的数据库创建问题
- python - 如何在 keras 中拟合两个连接 LSTM 的模型?
- lucene - 带有特殊字符的认知搜索通配符搜索
- sql - 如何使用两个派生表创建公用表表达式
- java - 无法从“https://services.gradle.org/distributions/gradle-6.5-bin.zip”安装 GRADLE 发行版
- python - 如何检索附加到工作项的 wiki 链接
- javascript - 每周在特定时间更改按钮文本(或 div)