首页 > 解决方案 > 从镶木地板中删除数据会导致它的大小*增长* - 为什么?

问题描述

最近我们发现,由于 ETL 中的问题,我们的镶木地板中有重复的行。

我们启动了一个项目来删除重复的行(读取镶木地板、去重和回写)。令人惊讶的是,我们注意到实木复合地板实际上变大了!

这怎么解释?是否有可能由于数据量较小,某些压缩根本无法启动?

或者,我们是否应该在重复数据删除逻辑中寻找错误(尽管不太可能)?

标签: apache-sparkpysparkparquet

解决方案


您实际上无法从镶木地板文件中删除记录。如果您删除了一条记录,它仍然会存在。但是有关“删除”的记录的附加信息会添加到镶木地板文件中。


推荐阅读