apache-spark - 平面文件(orc,csv)比火花中的增量表更有效吗
问题描述
我正在处理大约 16 个增量表,其中大约 1 到 300 万行在数据块中。
因此,当我尝试执行连接之类的操作,然后在这些增量表中删除或插入时,需要很长时间。
我要做的主要是插入和删除操作。所以我应该使用平面文件而不是增量表。或者我应该尝试与插入的增量表合并。
因此,我怀疑 delta 的优势是什么,为什么不使用平面文件?
这是一个基本问题,但我对数据块还是新手,所以任何帮助都会很好。
解决方案
Andy,这完全取决于您的需求和期望,但增量表有助于解决许多数据工程挑战。
Delta 表的行为类似于事务日志,对于时间旅行等许多场景非常有用。这提供了回滚、重现一些实验(读取旧版本的数据)的能力,允许分析数据版本之间的差异(更改)。
同样在处理 parquet 时,我们不必重写整个数据集,我们只写入更新后的数据。
如果您不需要任何这些,那么也许您可以忘记增量表并专注于纯粹的性能。
推荐阅读
- php - 将变量从一个 php 文件发送到另一个文件并在第三个文件中显示变量值
- javascript - AmCharts Serial Chart: Center-align label under the axis points
- random - 在 R 中使用混合 logit 模型进行预测
- javascript - 在 redux 操作中控制异步批处理请求
- java - 如何打印通过硒中的“selectByVisibleText”方法选择的所选选项的文本
- java - 在 Android 应用上显示我的 Twitter 页面时间线
- android - AppCompat theme for Leanback
- angular - ngx-datatable,触发列排序
- systemd - 如何启用 systemd 支持
- android - 具有渐变颜色和圆角的边框描边