r - 如何在 R 中打开 .json.gz 格式的文件?
问题描述
我是一名数据科学专业的学生,使用产品评论数据撰写论文。但是,它被打包在一个 .gz 文件中。
下载时的文件名是“xxx.json.gz”,当我查看属性时,它说文件类型是 gz Archive (.gz),使用 7-Zip 文件管理器打开。
我找到了以下代码:
z <- gzfile("xxx.json.gz")
data = read.csv(z)
但是对象“数据”现在是一个列表。所有列都是因素,带有评论文本的列根本不正确。我认为 read.csv() 部分是错误的,因为它应该是一个 json 文件。
有没有人有解决方案?我也有数据的 URL 地址,如果更好用的话:http: //deepyeti.ucsd.edu/jianmo/amazon/categoryFilesSmall/Electronics_5.json.gz
解决方案
正在加载,我现在有 5,152,500 条记录,可能是评论文本堵塞了它
library(jsonlite)
happy_data <-stream_in(
gzcon(
url("http://deepyeti.ucsd.edu/jianmo/amazon/categoryFilesSmall/Electronics_5.json.gz")
)
)
推荐阅读
- nativescript - Nativescript 插件“nativescript-camera-plus”:无法设置图片大小(宽度和高度)
- c++ - 在数组 dna 中的每个对象中获取相同的字符串(基因数组)(动态分配)
- react-native - React Navigation:有条件的主导航器
- python - 无法使用 OS.system 从 python 运行可执行文件
- html - 尝试获取嵌入式网络链接或 iframe 以显示另一个网站
- mysql - 在存储过程中使用循环增量创建表
- forms - 如何在 Symfony 4 表单上的多个复选框周围添加包装器
- php - 如何使用 laravel eloquent 查询用户并将他们分组在年龄范围内
- javascript - 打开图层,停用 ol.control.Toggle 并激活另一个
- python - 在pygame中播放两个声音文件