apache-spark - 平面文件（orc，csv）比火花中的增量表更有效吗

我正在处理大约 16 个增量表，其中大约 1 到 300 万行在数据块中。
因此，当我尝试执行连接之类的操作，然后在这些增量表中删除或插入时，需要很长时间。
我要做的主要是插入和删除操作。所以我应该使用平面文件而不是增量表。或者我应该尝试与插入的增量表合并。

因此，我怀疑 delta 的优势是什么，为什么不使用平面文件？

这是一个基本问题，但我对数据块还是新手，所以任何帮助都会很好。

标签： apache-sparkpysparkapache-spark-sqldatabricks

Andy，这完全取决于您的需求和期望，但增量表有助于解决许多数据工程挑战。

Delta 表的行为类似于事务日志，对于时间旅行等许多场景非常有用。这提供了回滚、重现一些实验（读取旧版本的数据）的能力，允许分析数据版本之间的差异（更改）。

同样在处理 parquet 时，我们不必重写整个数据集，我们只写入更新后的数据。

如果您不需要任何这些，那么也许您可以忘记增量表并专注于纯粹的性能。