apache-spark - 在 Spark 中使用 dropduplicates() 对应用程序性能的利弊
问题描述
我显然是大数据技术中 Spark 的新手用户。我遇到了dropduplicates('Somecolumn')
Spark 函数的用法,快速浏览给我的印象是它用于删除具有相同值的记录(可能是数据帧中的内部 RDD 行对象)Somecolumn
。
我还知道这dropduplicates()
需要许多shuffle操作,这可能被证明是昂贵的(耗时),并且不是最优的(性能方面)。
如果任何人都可以向以下方面提供资源/投入,那将非常有帮助:
- 更好地理解函数的使用
dropduplicates()
, - 预期会产生什么影响和
- 如果我们要使用该功能或 4) 不使用该功能要考虑什么。