r - 寻找有关从这个非结构化、分页 HTML 网站抓取特定数据的建议
问题描述
如标题所述,我正在尝试从网站中提取数据。具体来说,我正在尝试从此处找到的每个物种页面中提取宿主易感性和宿主不易感性数据。
这些数据可以在各个物种的特定页面上找到,例如Abelia 潜伏菌病毒在其各自的 URL上。
我正在努力提取这些数据,因为 HTML 似乎非常非结构化。例如,主机易感性/不易感性始终存在于节点 h4 中,但与其他不同的标头和列表项一起存在。
这是我第一次尝试网络抓取,我一直在尝试使用 chrome 插件 Web Scraper,它看起来非常直观和灵活。我已经能够让刮板访问多个页面,但我似乎无法指示它专门收集易感性/易感性数据。我尝试使用 SelectorGadget 来准确识别我的选择器应该是什么,但是 HTML 中缺乏结构使得这无效。
关于如何改变我的攻击计划的任何建议?
我也愿意尝试使用 R 的rvest
包提取数据。到目前为止,我已经能够从特定页面读取 html,提取 h4 和 li 元素,并清理换行符。可重现的代码:
library(rvest)
library(stringr)
pvo <- read_html("http://bio-mirror.im.ac.cn/mirrors/pvo/vide/descr042.htm")
pvo %>%
html_elements("h4, li") %>%
html_text() %>%
str_replace_all("[\n]" , "")
这似乎为我提供了我想要的东西以及无关的数据:
...
[20] "Susceptible host species "
[21] "Chenopodium amaranticolor"
[22] "Chenopodium quinoa"
[23] "Cucumis sativus"
[24] "Cucurbita pepo"
[25] "Cynara scolymus"
[26] "Gomphrena globosa"
[27] "Nicotiana benthamiana"
[28] "Nicotiana clevelandii"
[29] "Nicotiana glutinosa"
[30] "Ocimum basilicum"
[31] "Vigna unguiculata"
[32] "Insusceptible host species"
[33] "Nicotiana rustica"
[34] "Nicotiana tabacum"
[35] "Phaseolus vulgaris "
...
从这里开始,我不熟悉如何从字符串中专门选择/过滤所需的信息。我尝试了一些stringr
、gsub
和rm_between
filter 功能,但所有尝试均未成功。我不知道从哪里开始让这段代码访问在线数据库上的许多物种页面,或者如何指示它保存聚合数据。我前面的路是怎样的!
解决方案
这是一个技巧。
你可以得到索引
'Susceptible host species'
'Insusceptible host species'
'Families containing susceptible hosts'
1 和 2 之间的一切都是susceptible_species
2 和 3 之间的一切insusceptible_species
。
library(rvest)
library(stringr)
pvo <- read_html("http://bio-mirror.im.ac.cn/mirrors/pvo/vide/descr042.htm")
all_values <- pvo %>% html_elements("h4 li") %>% html_text()
which(all_values == 'Susceptible host species')
sus_index <- grep('Susceptible host species', all_values, fixed = TRUE)
insus_index <- grep('Insusceptible host species', all_values, fixed = TRUE)
family_sus_index <- grep('Families containing susceptible hosts', all_values, fixed = TRUE)
susceptible_species <- all_values[(sus_index+1):(insus_index-1)]
susceptible_species
# [1] "Chenopodium amaranticolor" "Chenopodium quinoa" "Cucumis sativus"
# [4] "Cucurbita pepo" "Cynara scolymus" "Gomphrena globosa"
# [7] "Nicotiana benthamiana" "Nicotiana clevelandii" "Nicotiana glutinosa"
#[10] "Ocimum basilicum" "Vigna unguiculata"
insusceptible_species <- all_values[(insus_index+1):(family_sus_index-1)]
insusceptible_species
#[1] "Nicotiana rustica" "Nicotiana tabacum" "Phaseolus vulgaris "
推荐阅读
- lua - 在 Lua 5.0 中发送 HTTP POST 请求(最好不安装包)
- django - 检查当前用户电子邮件是否以
- android - 使用内部测试更新 Android 应用并保留数据
- c# - 尝试在 ASP.NET Core MVC 中实现搜索时无法在控制器中获取文本框值
- dynamics-crm - 是否可以在 Dynamics 365 门户上嵌入画布应用程序?
- documentation - 用于创建 google doc 中使用的所有单词的列表的脚本
- apple-push-notifications - HomeKit 通知随机行为与灯泡、烟雾、CO 服务
- react-native - 动态反应原生模糊背景
- c++ - Sql 驱动程序消息 [Microsoft][ODBC SQL Server Driver][DBNETLIB]SQL Server 不存在或访问被拒绝
- linker - 错误 L6218E 未定义符号 _asm(来自 main.o)