r - 大型 JSON 对象解析失败 (rtweet)
问题描述
我正在尝试使用parse_stream()
rwteet 库中的函数函数解析大型 JSON 文件。它因长 JSON 对象而失败。
此 JSON 对象在具有相当大的大小 (200MB-1GB) 时往往会产生错误。我的流功能看起来像这样。
stream_tweets(
"#google,#apple",
timeout = 60*60*6, #six hours
file_name = json_filename,
dir= "./raw_tweets/"
)
djt <- parse_stream(json_filename)
我没有启用该parse = TRUE
参数,因为在文档中它说不建议在大型 JSON 对象中使用。无论如何,我也尝试过流式传输,但parse = TRUE
也失败了parse_stream()
。我得到的错误是以下错误:
Error: parse error: unallowed token at this point in JSON text
ELDkx4-i7ysCAR_.mp4?tag=10"},,{"bitrate":2176000,"content_ty
(right here) ------^
我以为是两个大括号之间的双逗号。我使用ctrl+f搜索了 Atom字符串ELDkx4-i7ysCAR_.mp4?tag=10"}
,唯一的结果是没有,,
.
为什么我得到这个解析错误,有人遇到同样的问题并以某种方式修复它吗?
解决方案
我认为当它在流期间出现连接错误时会发生这种情况。我认为当它再次连接 json
推荐阅读
- javascript - 配置文件名称中的 rc 代表什么?
- elasticsearch - 在弹性中索引海量数据的最快方法
- javascript - 正则表达式检查引荐来源网址字符串
- typeorm - TypeORM 的迁移:generate 重新生成整个数据库模式
- javascript - Mongoose 模型未定义
- elasticsearch - 快照 GC 会影响性能吗?用户可以强制GC吗?
- go - 使用动态(config.toml)配置文件运送 Golang 二进制文件
- c - 例如,如何使用 strtok(string, "\n") 删除字符串末尾的 \n?
- python - 从 asn1 格式的签名数据中导出时间戳“signing_time”
- javascript - ember js 非 SPA 方法