首页 > 解决方案 > PySpark MLLib 随机森林分类器可重复性问题

问题描述

我遇到了这种情况,我不知道 PySpark 随机森林分类器发生了什么。在给定相同的训练数据的情况下,我希望模型是可重现的。为此,我seed按照本页的建议将参数添加到整数值。

https://spark.apache.org/docs/2.4.1/api/java/org/apache/spark/mllib/tree/RandomForest.html

seed参数是引导和选择特征子集的随机种子。现在,我验证了模型,它们完全一样。但问题来了。

如果我重新排序训练数据或简单地对其进行打乱并运行训练过程(使用相同的种子值),它会产生不同的模型。谁能帮我理解这种行为?我认为种子用于引导和选择特征子集。如果是这种情况,是什么导致了这种随机行为?

理解这一点真的很好,如果有人可以提供帮助 - 将不胜感激。谢谢。

标签: apache-sparkpysparkrandom-forestapache-spark-mllib

解决方案


推荐阅读