首页 > 解决方案 > 平面文件(orc,csv)比火花中的增量表更有效吗

问题描述

我正在处理大约 16 个增量表,其中大约 1 到 300 万行在数据块中。
因此,当我尝试执行连接之类的操作,然后在这些增量表中删除或插入时,需要很长时间。
我要做的主要是插入和删除操作。所以我应该使用平面文件而不是增量表。或者我应该尝试与插入的增量表合并。

因此,我怀疑 delta 的优势是什么,为什么不使用平面文件?

这是一个基本问题,但我对数据块还是新手,所以任何帮助都会很好。

标签: apache-sparkpysparkapache-spark-sqldatabricks

解决方案


Andy,这完全取决于您的需求和期望,但增量表有助于解决许多数据工程挑战。

Delta 表的行为类似于事务日志,对于时间旅行等许多场景非常有用。这提供了回滚重现一些实验(读取旧版本的数据)的能力,允许分析数据版本之间的差异(更改)。

同样在处理 parquet 时,我们不必重写整个数据集,我们只写入更新后的数据

如果您不需要任何这些,那么也许您可以忘记增量表并专注于纯粹的性能。


推荐阅读