首页 > 解决方案 > 用于 URL 提取的 XPath 查询

问题描述

我需要http://site.ru/从这段代码中提取:

<div class="one">
<dl>
<dt class="two">
<span class="name">Site</span>
</dt>
<dd class="three">
<span class="js-pseudo-link" data-url="rAnDoMlEtTeRsAnDnUmBeRs" style>
<a href="http://site.ru/" class rel="nofollow" target="_blank" style> http://site.ru/ </a>
</span>
</dd>
</dl>
</div>

我使用这个 XPath 查询://div//dl//dd//span//a/@href

但它不起作用。它不返回任何东西。我是 XPath 的新手。

标签: xpathgoogle-sheetsextractdata-extraction

解决方案


不幸的是,您正在寻找的数据源是一个空的跨度节点(类js-pseudo-link)。该data-url属性具有您想要的 base64 编码链接。此节点仅在加载后才会填充。ImportXML由于某种原因忽略没有文本的节点,并且没有办法让它不这样做。为了解决这个问题,您似乎必须编写一个可以处理空节点的应用程序脚本,或者只获取原始 HTML 代码并对其进行解析。


推荐阅读