首页 > 解决方案 > 使用 R 从动态网页中提取文本

问题描述

我正在使用本文中的数据编写数据准备教程:https ://www.nytimes.com/interactive/2021/01/19/upshot/trump-complete-insult-list.html#

没有任何文本是硬编码的,一切都是动态的,我不知道从哪里开始。我已经用rvestxml2包尝试了一些东西,但我什至无法判断我是否正在取得进展。

我在记事本++中使用了复制/粘贴正则表达式来获得这样的表格结构:

目标 攻击
AAA新闻 假新闻
AAA新闻 假新闻
AAA新闻 彻底的耻辱
... ...
ZZZ先生 真正的疯狂工作

但我想展示如何以编程方式完成所有操作(不复制/粘贴)。

我的主要问题如下:通过合理的努力是否有可能?如果是这样,关于如何开始的任何线索?

PS:我知道这可能是重复的,我只是不知道是哪个问题,因为那里有完全不同的方法:\

标签: htmlrweb-scripting

解决方案


我在本月使用了我在《纽约时报》上的免费文章分配,但这里有一些指导。看起来该网页使用多个脚本来创建和显示该页面。

如果您使用浏览器的开发人员工具并查看网络选项卡,您会发现 2 个 CSV 文件:

看起来简化后的文件创建了上面引用的表格,而 tweets-full 是完整的推文。您可以直接下载这些文件,read.csv()并根据需要处理这些信息。

在抓取任何网页之前,请务必阅读服务条款。


推荐阅读