首页 > 解决方案 > 在 Spark 中使用 dropduplicates() 对应用程序性能的利弊

问题描述

我显然是大数据技术中 Spark 的新手用户。我遇到了dropduplicates('Somecolumn')Spark 函数的用法,快速浏览给我的印象是它用于删除具有相同值的记录(可能是数据帧中的内部 RDD 行对象)Somecolumn

我还知道这dropduplicates()需要许多shuffle操作,这可能被证明是昂贵的(耗时),并且不是最优的(性能方面)。

如果任何人都可以向以下方面提供资源/投入,那将非常有帮助:

  1. 更好地理解函数的使用dropduplicates()
  2. 预期会产生什么影响和
  3. 如果我们要使用该功能或​​ 4) 不使用该功能要考虑什么。

标签: apache-sparkoptimizationpyspark

解决方案


推荐阅读