首页 > 解决方案 > 奥运会时间表 IMPORTXML - Google 表格

问题描述

更新 - 澄清的例子

如果存在,我如何说服IMPORTXML抓住三个节点下的空元素<td>特定属性?

--

我正在尝试将奥运会网站上的日程表提取到#reasons 的 G 表中。我尽可能地IMPORTHTML不会做我想做的事情,然后花了比我愿意提到的更多的时间来敲打我的头IMPORTXML和 XPath。这是我得到的最接近的:

=importxml("https://olympics.com/tokyo-2020/en/schedule/","//[@id='schBoxInner']/table/tbody/tr")

这成功地将正确的行标题以及所有适当的<td>列元素都拉到 G 表中,因为如果我输入(空)列,我会收到#REF错误消息。

在我看来,这应该很容易 - 我想要一张表,其中包含事件正在发生的天数,以及事件是否正在发生。例如,开幕式在 23 日举行(由于桌子不稳定,所以在 D 列:

21 日 22日 23日 24日
开幕式 真的
篮球 真的

诀窍是它不是TRUE那个日期的值:它是<a href=blah><img=blah></a>. 我只想在 G 表格的那个单元格中包含一些东西,因为按照我之前的公式,它显示...什么都没有。

如果它真的应该这么难,请现在告诉我。

标签: google-sheetsxpathgoogle-sheets-formula

解决方案


有一个奥林匹克日历的维基百科@ https://en.wikipedia.org/wiki/Template:2020_Summer_Olympics_calendar

你可以使用,

=importhtml("https://en.wikipedia.org/wiki/Template:2020_Summer_Olympics_calendar","table",3)

拿到桌子。例子


推荐阅读