apache-spark - 将 2TB 的 gzip 多行 JSON 转换为 NDJSON
问题描述
对于我的研究,我有一个包含大约 20,000 个 gzip 压缩的多行 json 文件的数据集(~2TB,都具有相同的架构)。我需要处理和清理这些数据(我应该说我对数据分析工具很陌生)。
在花了几天时间阅读有关 Spark 和 Apache Beam 的信息后,我确信第一步是首先将此数据集转换为 NDJSON。在大多数书籍和教程中,他们总是假设您正在使用一些新行分隔的文件。
转换此数据的最佳方法是什么?我试图在 gcloud 上启动一个大型实例,然后使用 gunzip 和 jq 来执行此操作。毫不奇怪,这似乎需要很长时间。
提前感谢您的帮助!
解决方案
如果您使用sc.wholeTextFiles
. 将此方法指向一个目录,您将返回文件名和文件内容的位置RDD[(String, String)]
。._1
._2
推荐阅读
- arrays - 如何创建可以批量编辑的数组?
- javascript - 使用 jQuery 操作 DOM 中的类元素
- mysql - 有没有办法检查表中的新行是否与其他表中的条目一致?[SQL]
- android-layout - default circle ProgressBar thickness etc
- android - How to show something on Incoming Call Screen under Delphi 10.2
- java - Java Synchronizing for Integer values. Cleaning up map that tracks synchronize objects
- sql - XMLAGG 抛出 ORA-1489 - 不知道为什么
- java - JSP could not find available java class
- for-loop - 创建星形图案
- javascript - 不能用 paperJS 创建多个画布?