dataframe - 填补缺失的数据
问题描述
我有两个数据框
df_1:
ID | title | name | age
----------------------------------
32 | AA | Alex | 30
----------------------------------
4568 | BB | Dom | 35
----------------------------------
3804 | CC | pascal | 58
----------------------------------
df_2:
ID | title
--------------
288 | AZERTY
--------------
290 | querty
--------------
我想附加 to 的df_2
数据df_1
。我想right
在来自的行前面填充列年龄df_1
。
df_1 为:
ID | title | name | age
----------------------------------
32 | AA | Alex | 30
----------------------------------
4568 | BB | Dom | 35
----------------------------------
3804 | CC | pascal | 58
----------------------------------
288 | AZERTY | right | right
-----------------------------------
290 | querty | right | right
-----------------------------------
如何在pyspark
填充缺失的列时附加数据框?
解决方案
您需要联合表:
df_2 = df_2
.withColumn("name", lit("right"))
.withColumn("age", lit("right"))
df_1.union(df_2).show()
+----+------+-------+-------+
| id| title| name| age|
+----+------+-------+-------+
| 32| AA| Alex| 30|
|4568| BB| Dom| 35|
| 288|AZERTY|right |right |
| 290|querty|right |right |
+----+------+-------+-------+
推荐阅读
- utf-8 - 通过 TCP/IP 向 A16 COMS 大型机发送 UNICODE 字符串
- javascript - 有没有办法在 vanilla Javascript 中存储以前点击的元素
- python - 在 Python 中反转二维数组中的数组
- java - 具有两个类的 Java 代码中的 NoSuchField 错误
- r - 使用 facetwrap 的多项式拟合 ggplot
- android - Android Material Chip 主题覆盖
- excel - 使用github存储excel文件时,文件似乎每次都恢复到旧版本
- vue.js - 通过静态道具传递 API 调用详细信息
- python - TypeError: 'module' object is not callable error running pip install selenium
- python - 删除或忽略索引python