python - pyspark.sql.functions.hash 中使用了什么哈希算法?
问题描述
我对 PySpark 哈希函数有一个简单的问题。
我已经检查过,在 Scala 中,Spark 使用基于spark 中的Hash 函数的murmur3hash 。
我想知道 PySpark 中的哈希函数究竟使用了什么算法(https://spark.apache.org/docs/latest/api/python/_modules/pyspark/sql/functions.html#hash)。
有人能回答这个问题吗?我还想知道说明 PySpark 哈希函数中使用的算法的代码。
解决方案
Pyspark 只是 Scala Spark 代码的包装器。我相信它使用与 Scala Spark 相同的哈希函数。
在指向源代码的链接中,您可以看到它调用sc._jvm.functions.hash
,它本质上指向 Scala 源代码(在“JVM”内部)中的等效函数。
推荐阅读
- vba7 - 在 64 位 Office 和 VBA7 中声明和调用 HTMLHelp API 需要正确的语法
- dns - 如何设置充当 OpenShift 集群别名的子域
- asp.net - 如何使用 ASP.NET 将数据保存到 MySql 数据库中
- python - 与 TF2.3 相比,使用 TF1.15 时 tf.keras model.fit 慢
- c# - 如何将 C# 编译器错误位置(行、列)映射到 Roslyn API 生成的 SyntaxTree?
- python-3.x - Mathplotlib - 如何在左右两侧绘制 y 轴标签和刻度线
- json - 如何使用 dart 修改 json 文件
- vb.net - MySqlException:列计数与第 1 行的值计数不匹配
- sql-server - 将行号添加到 Microsoft Report Builder 输出
- python - 多线程时 input() 返回 EOF 错误