apache-spark - PySpark MLLib 随机森林分类器可重复性问题
问题描述
我遇到了这种情况,我不知道 PySpark 随机森林分类器发生了什么。在给定相同的训练数据的情况下,我希望模型是可重现的。为此,我seed
按照本页的建议将参数添加到整数值。
https://spark.apache.org/docs/2.4.1/api/java/org/apache/spark/mllib/tree/RandomForest.html。
该seed
参数是引导和选择特征子集的随机种子。现在,我验证了模型,它们完全一样。但问题来了。
如果我重新排序训练数据或简单地对其进行打乱并运行训练过程(使用相同的种子值),它会产生不同的模型。谁能帮我理解这种行为?我认为种子用于引导和选择特征子集。如果是这种情况,是什么导致了这种随机行为?
理解这一点真的很好,如果有人可以提供帮助 - 将不胜感激。谢谢。