apache-spark - 从镶木地板中删除数据会导致它的大小*增长* - 为什么?
问题描述
最近我们发现,由于 ETL 中的问题,我们的镶木地板中有重复的行。
我们启动了一个项目来删除重复的行(读取镶木地板、去重和回写)。令人惊讶的是,我们注意到实木复合地板实际上变大了!
这怎么解释?是否有可能由于数据量较小,某些压缩根本无法启动?
或者,我们是否应该在重复数据删除逻辑中寻找错误(尽管不太可能)?
解决方案
您实际上无法从镶木地板文件中删除记录。如果您删除了一条记录,它仍然会存在。但是有关“删除”的记录的附加信息会添加到镶木地板文件中。
推荐阅读
- python - 制作程序随机掷 6 面骰子
- java - 如何从 Java rowMapper 中删除样板代码?
- html - 从直接子级的 XPath 获取文本
- python - 如何建立连接以在 python 中使用 dbpediaSpotlight?
- html - 当我在 Sublime 中保存一个 CSS 文件时,它会显示一个警报,我需要获取 Node.js
- micronaut - Micronaut -> 合并 2 个异步 HttpClient 调用的结果
- python - Python Regex 仅匹配一组字符的部分密码
- python - 为什么我的字典菜单没有出现?
- tensorflow - 在本地计算机上反向图像搜索(用于图像重复)
- python - 在 python 中同时使用 list() 和 map() 和分别使用它们的区别