首页 > 解决方案 > R 语言 - 从 URL 的源代码中抓取数据

问题描述

我想提取一个 URL 列表的源代码的特定数据。让我们以一个 URL为例。
在源代码中,我想pfDataConfig.page.section在这种情况下提取单词,hotels.geo.city.US.united-states.14652.los-angeles如图所示: 在此处输入图像描述

我使用包 rvest 尝试了几件事,但没有确凿的结果。请问,您对如何找到解决方案有任何建议吗?

非常感谢。

标签: r

解决方案


只需逐行导入并执行 grep。

# Reading line by line
mylines <- readLines("/path/to/file")

# Finding target line(s)
mytargetline <- mylines[grepl("pfDataConfig.page.section", mylines)]

# Stringsplit by "=" and extracting second element
mytarget <- unlist(strsplit(mytargetline, "="))[2]

推荐阅读