rvest - RVest 试图抓取日期时间字段
问题描述
我是新来的,也是网络抓取的新手。我试图弄清楚如何从一段 html 代码中获取日期/时间。我认为这对于 Rvest 来说非常简单,但它已经花费了我一段时间。我最好的猜测是:
测试 <- 页面 %>% html_nodes("span") %>% html_attr("time")
但它返回所有“NA”。
感谢您的意见!
<div class="v-popover"><span aria-describedby="popover_1chdwnsl8d" class="trigger" style="display: inline-block;"><time datetime="2019-03-30T04:55:56.000Z" title="Saturday, March 30, 2019, 05:55:56 AM" class="review-date--tooltip-target">Mar 30, 2019</time> <div class="tooltip-container-2"></div> <!----></span> </div>
</div>
解决方案
library(rvest)
pg <- read_html(<path>)
datetime <- pg %>% html_node(xpath = "//time") %>% html_attr("datetime")
date <- pg %>% html_node(xpath = "//time") %>% html_text()
datetime_long <- pg %>% html_node(xpath = "//time") %>% html_attr("title")
这将在文本中返回结果。您可能希望转换为日期或日期时间类型。
推荐阅读
- powershell - 仅将 xml 文件中的第一个字符串替换为 Powershell 中的新字符串
- docker - 是否有 docker API 或 exec.Command 方法可以从给定的容器名称(不是容器列表)中检索容器 ID?
- python - 每次在 selenium python 中更改时获取跨度文本(值)
- windows-10 - SQLCL 与 Adoptopenjdk
- .net - LINQ 2 DB 动态插入表
- html - 使用 laravel 和 Voyager 找不到图像或键入未知 dompdf
- javascript - 遍历特定类的每个子 div (cheerio)
- wso2 - WSO2 tmp 目录
- ios - 阴影在某些 UI 元素上不可见
- django - Django 访问外部数据库以将数据导入项目数据库