r - R 语言 - 从 URL 的源代码中抓取数据
问题描述
我想提取一个 URL 列表的源代码的特定数据。让我们以一个 URL为例。
在源代码中,我想pfDataConfig.page.section
在这种情况下提取单词,hotels.geo.city.US.united-states.14652.los-angeles
如图所示:
我使用包 rvest 尝试了几件事,但没有确凿的结果。请问,您对如何找到解决方案有任何建议吗?
非常感谢。
解决方案
只需逐行导入并执行 grep。
# Reading line by line
mylines <- readLines("/path/to/file")
# Finding target line(s)
mytargetline <- mylines[grepl("pfDataConfig.page.section", mylines)]
# Stringsplit by "=" and extracting second element
mytarget <- unlist(strsplit(mytargetline, "="))[2]
推荐阅读
- r - 如何将给定变量的演变添加为 R 数据表中的新变量?
- php - 如何将相同的标识列添加到不同的表?
- azure-active-directory - west-us2 区域的 Azure Log Analytics API 权限
- javascript - Watson Assistant 丢弃了 webhook 参数
- mysql - GROUPed 或在聚合函数中使用错误
- reactjs - 尝试将函数包装在另一个函数中的打字稿错误
- gpu - 关于安装 NVIDIA 驱动程序的问题:“您似乎没有支持 NVIDIA GPU”
- java - 如何使用 CriteriaBuilder Java 过滤日、月或两者
- python - 如何从字典中创建给定键的列表
- c# - SqlBulkTools 完全复制标识列