python-3.x - 使用 pyspark 创建一列空数组
问题描述
我想向现有数据框添加一个包含空数组/列表的列,如下所示:
col1 | col2 |
---|---|
1 | [ ] |
2 | [ ] |
3 | [ ] |
稍后填写。
我尝试了以下方法:
df = df.withColumn("col2", F.array(None))
或者先创建一个空列:
df= df.withColumn("empty_col", F.lit(None).cast(T.StringType()))
df= df.withColumn("col2", F.array(F.col("empty_col")))
但是最新的给出了一个包含空字符串的数组,而不是空字符串
编辑:
它适用于:
df = df.withColumn("col2", F.array().cast("array<string>"))
解决方案
只需None
在您的第一种方法中删除,所以
df = df.withColumn("col2", F.array())
推荐阅读
- php - 查询 API 返回空响应
- elasticsearch - Elasticsearch 管道无法访问@myfield
- python - C++中模板的继承?
- html - django.urls.exceptions.NoReverseMatch:“rentals-detail”的反向,没有找不到参数。尝试了 1 种模式:['(?P
[0-9]+)/$'] - python - 无法使用 pip 安装 scikit-learn
- php - cpanel 上的 Laravel POST 请求有时会返回 405 错误
- arrays - C - 二维数组后释放内存
- android - Android Studio 的 Hypervisor 一直有同样的错误,我已经尝试了我在网上能找到的所有东西
- java - java是否将对象本地放在堆栈上的函数中?
- sql - 如何选择第二列中出现所有值的一列值