json - 如何将 4TB Json 数据迁移到 Hadoop?
问题描述
我有 4TB json 的 PCM(产品目录)数据,我们的开发人员每天都会从 mongoDB 转储。作为构建数据仓库的一部分,我们希望将其移动到 HDFS 并将这些数据公开为用于分析的配置单元表。我没有得到 mongoDB访问。我只能要求他们以任何文件格式提供转储。目前我使用 JSONSerde 创建临时表来读取 HDFS,在其中移动了这个 json 文件并创建了 ORC 格式的最终表,这样我的配置单元查询会更快。可以一个建议在 Hadoop 中读取大数据(4TB)json 的最佳方法。我们的集群买不起 Spark。我尝试通过 get_json_object 方法解析每个文件,但它仍然比 Hive JsonSerde 花费更多的时间和资源。
注意:如果您知道更好的方法,请不要发送垃圾邮件,然后只回复
解决方案
推荐阅读
- assembly - Mips 汇编程序中执行的指令总数(instr.counter vs instr.stats)
- java - 使用 .stream().collect(Collectors.toMap(...)) 调用时,CharsetDecoder 偶尔会抛出 IllegalStateException
- html - 使用具有动态值的 ng-repeat
- python - 写入文件时如何编码?
- sql - 基于多表计算值的 SQL 更新
- .net - 使用混合 .NET Core 和框架解决方案的 Azure Devops 中的 Cake 构建脚本失败
- terraform - 无法在 RAM>=128GB 且 #cpus>=32 的 IBM Cloud 上供应大型 VSI
- swift - 质数从 2...100 范围内打印
- aws-sdk - 如何响应 AWS Cognito DEVICE_SRP_AUTH 以获取记住/信任设备功能?
- c++ - 存储值的动态数组