amazon-s3 - 如何根据数据湖中的数据的不同参数进行多个分区
问题描述
我们正在为来自各种数据源的大量数据构建一个新的数据湖,并将数据以Parquet 格式存储在 Amazon S3 存储桶中。
我们目前正在根据特定字段(例如,记录创建时间)创建分区。所以只要我们对数据湖的查询是基于这个特定字段的,我们就很好。
但是现在我们还需要根据其他一些字段(例如,Last-Updated-Time、Transaction-Time 等)查询相同的数据。我们想知道如何做到这一点,而不必复制数据并将它们存储在基于其他参数(Last-Updated-Time、Transaction-Time 等)的分区中
我确信这是一个常见问题,并且存在解决相同问题的现有方法,但到目前为止我找不到太多信息。我希望 StackOverflow 的数据专家可以通过建议将数据存储在 Data Lake 中的正确方法来帮助我,以便我可以使用各种参数对其进行查询。
我查找了许多与大数据相关的博客/网站以寻求帮助,但没有找到任何特定于我的查询的内容。
解决方案
推荐阅读
- java - 理解 Java 中的泛型
- javascript - React:管理菜单项和路由的状态
- salesforce - Salesforce - 仅在完成数据加载后触发顶点触发器
- command - 当我已经忽略了一条错误命令的消息时,为什么 on_command_error 会触发?
- java - 在 application.properties 和 application.yaml 中合并相同的属性
- javascript - HTML 表单不通过 AJAX Post 发送数据
- java - 为什么我在 Pentaho Report 中找不到 JDialog Box 的源代码
- c# - 信号量虽然未满但仍会阻塞
- python - flashcore.com 中的网页抓取
- javascript - 使用 reactContext 反应路由器-firebase 私有路由