首页 > 解决方案 > 加载任何 url 内容并在 JS 中遵循 XPATH

问题描述

我想做的是加载一个页面,并通过 XPath 或 Selector 或 JS Path 获取某些内容,然后在我的程序中使用由此获得的值。我怎么能那样做?例如在此页面上,使用页面的 url 并遵循该路径进行请求(同时也以某种方式定位类型,这里是类):

//*[@id="question-header"]/h1/a

会给我“加载任何 url 内容并在 JS 中遵循 XPATH”

当我得到里面的文字时:

<a href="/questions/54847748/load-any-url-content-and-follow-xpath-in-js" class="question-hyperlink">Load any url content and follow XPATH in JS</a>

标签: javascriptnode.jsurlweb-scraping

解决方案


好吧,你可以使用类似的东西

document.getElementById('question-header').children[0].children[0].href;

它不像 XPATH(孩子的冗余)那样动态,但应该可以解决您面临静态结构的问题。对于 Node.js,有几个库也可以做到这一点,例如libxmljsor parse5-more on this here


推荐阅读