首页 > 解决方案 > Pyspark 3.0+ 中的准确度、精确度和召回率等评估参数。Pyspark 中的混淆矩阵

问题描述

在 Pyspark 3.0+ 中创建混淆矩阵以及评估参数(如准确度、精度和召回率)的最佳方法是什么。我见过其他人的答案,但对于一个只有 800K 行的带有标签和预测的小型 pyspark 数据框来说,它们也太慢了。

Confusion Matrix to get precsion,recall, f1score的解决方案 对行进行排序,如果数据帧很大,这将非常慢。有没有更好的办法。我也尝试了收集功能(也在同一个链接中建议),但这也很慢。

标签: pysparkapache-spark-sql

解决方案


推荐阅读