pyspark - 当多列包含null时,pyspark中的加权平均计算
问题描述
我有一个如下形式的火花数据框:
我想计算一个加权总分,这将分别给任务、流程和功能一些 x1、x2、x3 权重。分数的公式为 ( len([common_i]/(len[Name_i]+len[Ref_Name_i]-len[common_i]))。其中 i 代表任务/流程/功能。但是,对于 [Name_i ] 和 [Ref_Name_i] 都为空,我想将加权平均值的分母设为 (1- xi) 而不是 1。任何人都可以帮助我
解决方案
推荐阅读
- regex - 如何在 Windows PowerShell 中捕获围绕正则表达式匹配的特定行?
- angular - Angular 12 - 导航到保留旧路线的网址的新路线
- amazon-web-services - 资源块 terraform 中的 For_each 循环
- vb.net - 如何通过 vb.net 从多个网站同时获取信息?
- uwsgi - 仅在 wsgi 中找不到 django 模块
- node.js - Auth0 与 Electron 在开发中工作,但在打包时没有
- unity3d - 有没有办法在适用于 HoloLens 的 Unity 应用程序中嵌入 Web 浏览器?
- swift - 可以消除循环中的 1 个吗?(写入标题并将数据写入 CSV 文件)
- python - python & mysql,执行操作失败;无法处理参数
- spring-boot - Spring Boot 存储库查询以返回有序结果