首页 > 解决方案 > pyspark.sql.functions.hash 中使用了什么哈希算法?

问题描述

我对 PySpark 哈希函数有一个简单的问题。

我已经检查过,在 Scala 中,Spark 使用基于spark 中的Hash 函数的murmur3hash 。

我想知道 PySpark 中的哈希函数究竟使用了什么算法(https://spark.apache.org/docs/latest/api/python/_modules/pyspark/sql/functions.html#hash)。

有人能回答这个问题吗?我还想知道说明 PySpark 哈希函数中使用的算法的代码。

标签: pythonapache-sparkpysparkapache-spark-sql

解决方案


Pyspark 只是 Scala Spark 代码的包装器。我相信它使用与 Scala Spark 相同的哈希函数。

在指向源代码的链接中,您可以看到它调用sc._jvm.functions.hash,它本质上指向 Scala 源代码(在“JVM”内部)中的等效函数。


推荐阅读