r - 通过 newssanchor 包提取全文文本 [in R]
问题描述
我正在使用 R 中的 newsanchor 包尝试通过 NewsAPI 提取整个文章内容。现在我已经做了以下事情:
require(newsanchor)
results <- get_everything(query = "Trump +Trade", language = "en")
test <- results$results_df
这给了我一个数据框,其中包含(最多)100 篇文章的信息。然而,这些并不包含整个实际的文章文本。相反,它们包含以下内容:
[1] "Tensions between China and the U.S. ratcheted up several notches over the weekend as Washington sent a warship into the disputed waters of the South China Sea. Meanwhile, Google dealt Huaweis smartphone business a crippling blow and an escalating trade war co… [+5173 chars]"
有没有办法提取剩余的 5173 个字符。我试图阅读文档,但我不太确定。
解决方案
我认为至少免费计划是不可能的。如果您在响应对象部分浏览https://newsapi.org/docs/endpoints/everything的文档,它会说:
内容 - 字符串
文章的未格式化内容(如果有)。对于开发者计划用户,这将被截断为 260 个字符。
所以所有的content
都仅限于 260 个字符。但是,test$url
有源文章的链接,您可以使用它来抓取整个内容,但由于它是从各种来源汇总的,我认为没有一种自动化的方法可以做到这一点。
推荐阅读
- python - How to use new android Scoped Storage in kivy app
- django-rest-framework - 为什么获取视图 firstapp.views.perticular_customers 没有返回 HttpResponse 对象。它在 DRF 中返回 None 而不是?
- apache-kafka - 如何排出kafka主题中的记录
- snowflake-cloud-data-platform - 现在是否在公共预览版中提供基于 SQL 语言的过程功能
- android - 在 Compose 中将内容包装到具有剪裁形状的文本?
- css - 滚动div内的CSS div定位
- javascript - 使用多个 if 和对象键改进代码,javascript 中的值
- java - 不显示要移动到 JFrame 的图像
- node.js - npm init 不起作用,ENOENT:没有这样的文件或目录
- directory - 如何修复无限递归文件夹?