pyspark - 将空值替换/转换为pyspark中的空数组
问题描述
我有 Pyspark 数据框:
id | column_1 | column_2 | column_3
--------------------------------------------
1 | ["12"] | null | ["67"]
--------------------------------------------
2 | null | ["78"] | ["90"]
--------------------------------------------
3 | ["""] | ["93"] | ["56"]
--------------------------------------------
4 | ["100"] | ["78"] | ["90"]
--------------------------------------------
我需要将null
column1 的所有值转换为空数组[]
id | column_1 | column_2 | column_3
--------------------------------------------
1 | ["12"] | null | ["67"]
--------------------------------------------
2 | [] | ["78"] | ["90"]
--------------------------------------------
3 | ["""] | ["93"] | ["56"]
--------------------------------------------
4 | ["100"] | ["78"] | ["90"]
--------------------------------------------
使用此代码,但它对我不起作用。
df.withColumn("column_1", coalesce(column_1, array().cast("array<string>")))
感谢你的帮助!
解决方案
与子集一起使用fillna()
。
推荐阅读
- php - 带有准备好的语句返回布尔值的 mysqli 子查询
- javascript - JavaScript 本地存储不保存或检索信息
- javascript - 如何使用给定的时间数组更改 setTimeout 时间
- sql - 条件分组并选择查询sql
- javascript - Express(续集)导出异步功能
- java - 线程中的每个动作都发生在该线程中的每个动作之前
- apache-storm - 从 spout 到最后一个 bolt 需要更多时间的元组(又名完全延迟)很高
- php - 在可从控制器访问的单独 php 文件中创建自定义函数
- gremlin - 在 Gremlin 中正确处理日期操作
- jquery - 使用字体真棒心形图标切换(MVC)将产品添加到收藏夹