首页 > 解决方案 > RVest 试图抓取日期时间字段

问题描述

我是新来的,也是网络抓取的新手。我试图弄清楚如何从一段 html 代码中获取日期/时间。我认为这对于 Rvest 来说非常简单,但它已经花费了我一段时间。我最好的猜测是:

测试 <- 页面 %>% html_nodes("span") %>% html_attr("time")

但它返回所有“NA”。

感谢您的意见!

<div class="v-popover"><span aria-describedby="popover_1chdwnsl8d" class="trigger" style="display: inline-block;"><time datetime="2019-03-30T04:55:56.000Z" title="Saturday, March 30, 2019, 05:55:56 AM" class="review-date--tooltip-target">Mar 30, 2019</time> <div class="tooltip-container-2"></div> <!----></span> </div>
    </div>

标签: rvest

解决方案


library(rvest)
pg <- read_html(<path>)
datetime <- pg %>% html_node(xpath = "//time") %>% html_attr("datetime")
date <- pg %>% html_node(xpath = "//time") %>% html_text()
datetime_long <- pg %>% html_node(xpath = "//time") %>% html_attr("title")

这将在文本中返回结果。您可能希望转换为日期或日期时间类型。


推荐阅读