web-scraping - 如何使用 XLM 和电子表格提取 Twitter 关注者编号
问题描述
我想在谷歌电子表格上获取 Twitter 关注者号码。
我使用了下面的代码,结果是N/A
=importXML("https://twitter.com/elonmusk","//a[@href='/elonmusk/followers']/span[@class='css-901oao css-16my406 r-poiln3 r-bcqeeo r-qvutc0'")
HTML代码是
<a href="/elonmusk/followers" dir="auto" role="link" class="css-4rbku5 css-18t94o4 css-901oao r-18jsvk2 r-1loqt21 r-1qd0xha r-a023e6 r-16dba41 r-rjixqe r-bcqeeo r-qvutc0">
<span class="css-901oao css-16my406 r-18jsvk2 r-poiln3 r-b88u0q r-bcqeeo r-qvutc0">
<span class="css-901oao css-16my406 r-poiln3 r-bcqeeo r-qvutc0">54.8M</span></span>
<span class="css-901oao css-16my406 r-m0bqgq r-poiln3 r-bcqeeo r-qvutc0">
<span class="css-901oao css-16my406 r-poiln3 r-bcqeeo r-qvutc0">Followers</span></span></a>
解决方案
请仔细查看跨度节点。您尝试定位的跨度实际上嵌套在先前的跨度内,它不是兄弟。尝试改变这个:
//a[@href='/elonmusk/followers']/span[@class='css-901oao css-16my406 r-poiln3 r-bcqeeo r-qvutc0']
类似于以下内容(注意 /span/span 而不是 /span 以反映实际的层次结构(a/span/span):
//a[@href='/elonmusk/followers']/span/span[@class='css-901oao css-16my406 r-poiln3 r-bcqeeo r-qvutc0']
或以下(注意 //span 而不是 /span)如果您不关心 a 和目标 span 节点之间的层次结构:
//a[@href='/elonmusk/followers']//span[@class='css-901oao css-16my406 r-poiln3 r-bcqeeo r-qvutc0']
推荐阅读
- javascript - 列表 JS 中的 JSON
- sql - Spark count 分组中的单词数
- html - 如何创建右对齐的注销按钮?
- python - 从 df 中查找最大值和最小值,以及相应的列名和行名
- javascript - 加载不显示表单上传的图像
- python - Pandas 版本的“如果为真,此处为 VLOOKUP,如果为假,则在其他地方为 VLOOKUP
- python - 在 Django 上找不到页面 - 空路径
- .net - .NET IL / MSIL 评估堆栈基础
- python - oracle绑定变量to_date参数错误
- c++ - 调用 std::thread.detach 时的意外行为