首页 > 解决方案 > 如何使用 R 从 Wikipedia 中提取各种表格?

问题描述

我有下一个链接:

https://en.wikipedia.org/wiki/List_of_prime_ministers_of_Spain

我正在尝试提取有关总理的信息,但它提供了一个没有任何明显顺序的数据表。

这是目前我正在使用的代码

library(XML)
library(httr)

url   = "https://en.wikipedia.org/wiki/List_of_prime_ministers_of_Spain"
url <- GET(url)
datos = readHTMLTable(rawToChar(url$content), header=T,stringsAsFactors=F)
tabla2= datos[[2]]

标签: r

解决方案


我建议使用硒。通过 Selenium API,您可以访问 DOM 的所有功能。之前我在 Python 中使用过 urlib 库,但如果页面使用很多功能则无济于事,因此 DOM 总是会发生变化。


推荐阅读