首页 > 解决方案 > 如何将 4TB Json 数据迁移到 Hadoop?

问题描述

我有 4TB json 的 PCM(产品目录)数据,我们的开发人员每天都会从 mongoDB 转储。作为构建数据仓库的一部分,我们希望将其移动到 HDFS 并将这些数据公开为用于分析的配置单元表。我没有得到 mongoDB访问。我只能要求他们以任何文件格式提供转储。目前我使用 JSONSerde 创建临时表来读取 HDFS,在其中移动了这个 json 文件并创建了 ORC 格式的最终​​表,这样我的配置单元查询会更快。可以一个建议在 Hadoop 中读取大数据(4TB)json 的最佳方法。我们的集群买不起 Spark。我尝试通过 get_json_object 方法解析每个文件,但它仍然比 Hive JsonSerde 花费更多的时间和资源。

注意:如果您知道更好的方法,请不要发送垃圾邮件,然后只回复

标签: jsonhadoophivehdfs

解决方案


推荐阅读