首页 > 解决方案 > 如何使用 Hadoop 维护其架构每季度更改一次的历史数据

问题描述

我有存储调查数据(来自客户的反馈)的 json 输入文件。

有没有办法通过删除并重新创建具有更改架构的表来维护历史记录?

如果列长度下降,它将如何表现让我们说在第三季度我们只有 30 列。

标签: pandasapache-sparkhadooptalend

解决方案


第一点是,在 HDFS 中,您不仅存储表,还存储文件。您在文件顶部的 hive impala 等中创建表。

某些格式支持在读取时合并模式,例如parquet 通常,您将能够使用超集列重新创建表。在 Impala 中,您具有类似的模式演变能力。


推荐阅读