首页 > 解决方案 > 通过 newssanchor 包提取全文文本 [in R]

问题描述

我正在使用 R 中的 newsanchor 包尝试通过 NewsAPI 提取整个文章内容。现在我已经做了以下事情:

require(newsanchor)
results <- get_everything(query = "Trump +Trade", language = "en")
test <- results$results_df

这给了我一个数据框,其中包含(最多)100 篇文章的信息。然而,这些并不包含整个实际的文章文本。相反,它们包含以下内容:

[1] "Tensions between China and the U.S. ratcheted up several notches over the weekend as Washington sent a warship into the disputed waters of the South China Sea. Meanwhile, Google dealt Huaweis smartphone business a crippling blow and an escalating trade war co… [+5173 chars]"

有没有办法提取剩余的 5173 个字符。我试图阅读文档,但我不太确定。

标签: rfeed

解决方案


我认为至少免费计划是不可能的。如果您在响应对象部分浏览https://newsapi.org/docs/endpoints/everything的文档,它会说:

内容 - 字符串

文章的未格式化内容(如果有)。对于开发者计划用户,这将被截断为 260 个字符。

所以所有的content都仅限于 260 个字符。但是,test$url有源文章的链接,您可以使用它来抓取整个内容,但由于它是从各种来源汇总的,我认为没有一种自动化的方法可以做到这一点。


推荐阅读