r - 如何使用 R 从 Wikipedia 中提取各种表格?
问题描述
我有下一个链接:
https://en.wikipedia.org/wiki/List_of_prime_ministers_of_Spain
我正在尝试提取有关总理的信息,但它提供了一个没有任何明显顺序的数据表。
这是目前我正在使用的代码
library(XML)
library(httr)
url = "https://en.wikipedia.org/wiki/List_of_prime_ministers_of_Spain"
url <- GET(url)
datos = readHTMLTable(rawToChar(url$content), header=T,stringsAsFactors=F)
tabla2= datos[[2]]
解决方案
我建议使用硒。通过 Selenium API,您可以访问 DOM 的所有功能。之前我在 Python 中使用过 urlib 库,但如果页面使用很多功能则无济于事,因此 DOM 总是会发生变化。
推荐阅读
- mysql - MySQL 如果存在左外连接
- python - google colab 中的 spacy en 中没有向量
- python - 为什么我不能在 str 切片中使用变量?
- slf4j - SLF4J 无法找到绑定(Eclipse Maven 项目)——我错过了什么?
- excel - 如何从 Excel 中的整数列中过滤字符串以在 Python 中处理
- javascript - 如何在html文档之前加载加载脚本
- ibm-watson - 通过 curl 在 watson 中通过 POST 调用更新对话节点时出错
- c - 试图编写一个程序来对 int 和 char 的值求和
- sql - 用户出勤日期年月明智
- python - 解决“数学”模块中涉及弧度的程序的问题