amazon-s3 - AWS S3 - 插入分桶 ORC 表
问题描述
我正在考虑将数据存储在其中S3
以ORC format
进行查询Athena
。
我想像这样对数据进行分区......
.../year=2019/month=7/
...并通过 id 进一步存储数据(id
每个月都有多个记录,有很多 id)
我希望能够每天将新数据插入到这个结构中......我知道我不能使用INSERT INTO
来自 Athena 的语句,因为不支持分桶表。
每天将数据插入这种结构的表中的最佳方法是什么?甚至可以处理分桶数据吗?
干杯
解决方案
自Presto 312以来,Presto 允许插入到分桶分区表的现有分区中。如果 Athena 不支持这一点,您可以非常轻松地自己运行 Presto 集群,例如使用Starburst Presto AWS 集成(我也可以出于其他原因推荐这个,因为如果您运行的不仅仅是几个查询,它可能比使用 Athena 便宜得多. 免责声明:我来自 Starburst)
推荐阅读
- npm - 通过 cmake execute_process 获取 npm --version
- xml - XML、XPath 和按属性值在同一级别上分组节点/属性
- java - 如何在 PreviewView 在屏幕上显示它们之前处理图像?我想做物体检测
- python-3.x - 如何解决 EOFError:在 azure devops 管道中读取一行时出现 EOF
- azure-devops - 使用许可的自定义 Azure DevOps 扩展开发
- google-cloud-platform - Recommendations AI 项目中的“INCORRECT_JSON_FORMAT userEvent”错误
- office-js - 如果在之后立即调用 item.saveAsync,Office.context.mailbox.item.addFileAttachmentAsync 不一致
- python - 无法解析余数:来自“(5+6)”的“(5+6)”
- groovy - 使用 RestAssured JAXB 和 groovy 解析 iTunes RSS
- blockchain - 如何在基板框架中使用 --staging 标志?