首页 > 解决方案 > 如何根据数据湖中的数据的不同参数进行多个分区

问题描述

我们正在为来自各种数据源的大量数据构建一个新的数据湖,并将数据以Parquet 格式存储在 Amazon S3 存储桶中。

我们目前正在根据特定字段(例如,记录创建时间)创建分区。所以只要我们对数据湖的查询是基于这个特定字段的,我们就很好。

但是现在我们还需要根据其他一些字段(例如,Last-Updated-Time、Transaction-Time 等)查询相同的数据。我们想知道如何做到这一点,而不必复制数据并将它们存储在基于其他参数(Last-Updated-Time、Transaction-Time 等)的分区中

我确信这是一个常见问题,并且存在解决相同问题的现有方法,但到目前为止我找不到太多信息。我希望 StackOverflow 的数据专家可以通过建议将数据存储在 Data Lake 中的正确方法来帮助我,以便我可以使用各种参数对其进行查询

我查找了许多与大数据相关的博客/网站以寻求帮助,但没有找到任何特定于我的查询的内容。

标签: amazon-s3bigdatadata-warehouseparquetdata-lake

解决方案


推荐阅读