apache-spark - 在 Spark 中使用 dropduplicates() 对应用程序性能的利弊

首页 > 解决方案 > 在 Spark 中使用 dropduplicates() 对应用程序性能的利弊

问题描述

我显然是大数据技术中 Spark 的新手用户。我遇到了dropduplicates('Somecolumn')Spark 函数的用法，快速浏览给我的印象是它用于删除具有相同值的记录（可能是数据帧中的内部 RDD 行对象）Somecolumn。

我还知道这dropduplicates()需要许多shuffle操作，这可能被证明是昂贵的（耗时），并且不是最优的（性能方面）。

如果任何人都可以向以下方面提供资源/投入，那将非常有帮助：

更好地理解函数的使用dropduplicates()，
预期会产生什么影响和
如果我们要使用该功能或 4) 不使用该功能要考虑什么。

标签： apache-sparkoptimizationpyspark

解决方案

推荐阅读