json - 如何将 4TB Json 数据迁移到 Hadoop？

问题描述

我有 4TB json 的 PCM（产品目录）数据，我们的开发人员每天都会从 mongoDB 转储。作为构建数据仓库的一部分，我们希望将其移动到 HDFS 并将这些数据公开为用于分析的配置单元表。我没有得到 mongoDB访问。我只能要求他们以任何文件格式提供转储。目前我使用 JSONSerde 创建临时表来读取 HDFS，在其中移动了这个 json 文件并创建了 ORC 格式的最终表，这样我的配置单元查询会更快。可以一个建议在 Hadoop 中读取大数据（4TB）json 的最佳方法。我们的集群买不起 Spark。我尝试通过 get_json_object 方法解析每个文件，但它仍然比 Hive JsonSerde 花费更多的时间和资源。

注意：如果您知道更好的方法，请不要发送垃圾邮件，然后只回复

标签： jsonhadoophivehdfs

json - 如何将 4TB Json 数据迁移到 Hadoop？

问题描述

解决方案

推荐阅读