首页 > 解决方案 > 当多列包含null时,pyspark中的加权平均计算

问题描述

我有一个如下形式的火花数据框:

在此处输入图像描述

我想计算一个加权总分,这将分别给任务、流程和功能一些 x1、x2、x3 权重。分数的公式为 ( len([common_i]/(len[Name_i]+len[Ref_Name_i]-len[common_i]))。其中 i 代表任务/流程/功能。但是,对于 [Name_i ] 和 [Ref_Name_i] 都为空,我想将加权平均值的分母设为 (1- xi) 而不是 1。任何人都可以帮助我

标签: pysparkaverageweighted

解决方案


推荐阅读