首页 > 解决方案 > IMPORTXML Google 表格查询 HTML

问题描述

我正在使用IMPORTXML谷歌表格上的功能从加拿大政府导入最新的签证号码,但是我可以导入网页上的所有内容,除了我认为可能下降到的数据/号码JavaScript

我只需要找到一种方法将这些数据提取到电子表格中,但我对 JS 没有经验。

这是网站,这是我的查询:

=IMPORTXML("https://www.cic.gc.ca/english/work/iec/selections.asp?country=au&cat=wh",
"//div[@class='col-md-8']")

这是一个示例表

标签: javascripthtmlgoogle-sheetsgoogle-sheets-formulagoogle-sheets-importxml

解决方案


不幸的是,Google Sheet 的公式IMPORTXML只能读取页面的静态 HTML 源代码,因此它无法读取任何动态插入的元素(正如您猜测的那样,签证号码是使用 Javascript 脚本动态插入的)。

如果您在浏览器中检查该站点的页面源,您会发现池中的候选人等数字不存在,因此IMPORTXML无法访问它们。

为了获得它们,您将需要寻找另一种网络抓取技术(使用诸如scrappy之类的库)。

我希望这对你有所帮助。让我知道您是否需要其他任何内容,或者您​​是否不理解某些内容。:)


推荐阅读