首页 > 解决方案 > 将 2TB 的 gzip 多行 JSON 转换为 NDJSON

问题描述

对于我的研究,我有一个包含大约 20,000 个 gzip 压缩的多行 json 文件的数据集(~2TB,都具有相同的架构)。我需要处理和清理这些数据(我应该说我对数据分析工具很陌生)。

在花了几天时间阅读有关 Spark 和 Apache Beam 的信息后,我确信第一步是首先将此数据集转换为 NDJSON。在大多数书籍和教程中,他们总是假设您正在使用一些新行分隔的文件。

转换此数据的最佳方法是什么?我试图在 gcloud 上启动一个大型实例,然后使用 gunzip 和 jq 来执行此操作。毫不奇怪,这似乎需要很长时间。

提前感谢您的帮助!

标签: apache-sparkhadoopapache-beam

解决方案


如果您使用sc.wholeTextFiles. 将此方法指向一个目录,您将返回文件名和文件内容的位置RDD[(String, String)]._1._2


推荐阅读