apache-spark - 将 2TB 的 gzip 多行 JSON 转换为 NDJSON

对于我的研究，我有一个包含大约 20,000 个 gzip 压缩的多行 json 文件的数据集（~2TB，都具有相同的架构）。我需要处理和清理这些数据（我应该说我对数据分析工具很陌生）。

在花了几天时间阅读有关 Spark 和 Apache Beam 的信息后，我确信第一步是首先将此数据集转换为 NDJSON。在大多数书籍和教程中，他们总是假设您正在使用一些新行分隔的文件。

转换此数据的最佳方法是什么？我试图在 gcloud 上启动一个大型实例，然后使用 gunzip 和 jq 来执行此操作。毫不奇怪，这似乎需要很长时间。

提前感谢您的帮助！

标签： apache-sparkhadoopapache-beam

如果您使用sc.wholeTextFiles. 将此方法指向一个目录，您将返回文件名和文件内容的位置RDD[(String, String)]。._1._2