首页 > 解决方案 > 来自 Google Play 的 Xpath 抓取开发者网站

问题描述

我是 xpath 和抓取页面的新手。我需要通过使用谷歌表格中的 importxml 功能从谷歌播放应用程序页面(开发者 - >访问网站)中提取到开发者网站的链接。尝试了几种方法,没有奏效:

  1. 开始于 //main importxml(link; "//main/c-wiz[3]/div[1]/div[2]/div//div[9]/div/span/div/span/div/@ href") 来自开发者控制台的完整 xpath
  2. importxml(link;"//div[4]/c-wiz/div/div[2]/div/div/main/c-wiz[3]/div[1]/div[2]/div/div[ 9]/span/div/span/div[1]/a/@href")

抓取google play 页面之前,我对 AppStore 有类似的任务,并想出了以下在 Google Play 上不起作用的公式: importxml(link; "//section[contains(@class,'section--link-list') ]/ul/li[1]/a/@href")

对我来说,主要问题是在前两种情况下网站链接的路径是正确的,但我根本无法获得任何链接。你能告诉我如何正确吗?

先感谢您!

标签: web-scrapinggoogle-sheetsxpathgoogle-sheets-formulagoogle-query-language

解决方案


尝试:

=REGEXEXTRACT(QUERY(FLATTEN(IMPORTDATA(A1)), 
 "where Col1 starts with 'url:' 
    and Col1 ends with '}'", 0), """(.*)""")

在此处输入图像描述

在此处输入图像描述


推荐阅读