pyspark - Pyspark 3.0+ 中的准确度、精确度和召回率等评估参数。Pyspark 中的混淆矩阵
问题描述
在 Pyspark 3.0+ 中创建混淆矩阵以及评估参数(如准确度、精度和召回率)的最佳方法是什么。我见过其他人的答案,但对于一个只有 800K 行的带有标签和预测的小型 pyspark 数据框来说,它们也太慢了。
Confusion Matrix to get precsion,recall, f1score的解决方案 对行进行排序,如果数据帧很大,这将非常慢。有没有更好的办法。我也尝试了收集功能(也在同一个链接中建议),但这也很慢。
解决方案
推荐阅读
- compiler-construction - 什么定义了应该如何将 AST 转换为目标语言
- git - TFS 构建 - 与外部 Git 存储库的持续集成
- vba - 如何修改此 VBA 代码以使其在我的工作簿中的所有工作表上运行?
- python - 您如何在 while 循环中延迟特定事件?
- unity3d - 团结 | webCamScript 不显示
- python - 获取列表的剩余部分
- python - 使用virtualenv时将python2.7包改成我需要的python3.5包
- google-bigquery - 将数据从 csv 文件加载到大查询中时 Json 模式文件的目的
- java - 带窗口的 KTable 产生错误的类型
- openmpi - OpenMPI 进程亲和性