首页 > 解决方案 > 将 rvest 与 drake 一起使用:外部指针无效错误

问题描述

当我第一次运行下面的代码时,一切正常。但是当我在命令中更改某些内容时html_file %>%...,例如 commenting tolower(),我收到以下错误:

Error: target title failed.
diagnose(title)error$message:
  external pointer is not valid
diagnose(title)error$calls:
   1. └─html_file %>% html_nodes("h2") %>% html_text()

代码:

library(rvest)
library(drake)

some_string <- '
  <div class="main">
      <h2>A</h2>
      <div class="route">X</div>
  </div> 
'

html_file <- read_html(some_string)
title <- html_file %>% 
  html_nodes("h2") %>% 
  html_text()

plan <- drake_plan(
  html_file = read_html(some_string),
  title = html_file %>% 
    html_nodes("h2") %>% 
    html_text() %>% 
    tolower()
)

make(plan)

我找到了两种可能的解决方案,但我对它们并不感兴趣。
1. 将两个步骤合二为一drake_plan
2.按照这里的建议使用xml2::write_html()and 。 有没有更好的方法来解决它?PS 问题已在此处Rstudio 论坛github上讨论过。xml2::read_html()

标签: rvestdrake-r-package

解决方案


默认情况下,drake将目标保存为 RDS 文件(此处为其他选项)。因此,您提出的https://github.com/tidyverse/rvest/issues/181#issuecomment-395064636正是问题所在。我喜欢(1),因为文本与 RDS 兼容。drake从广义上讲,由用户选择与我们的数据存储系统兼容的好目标。有关讨论和类似问题的链接,请参见https://books.ropensci.org/drake/plans.html#how-to-choose-good-targets 。但是您想使用 (2),您可以从动态文件中返回 HTML 文件的文件路径。


推荐阅读