pyspark - Pyspark - 如何将多个数据帧的列连接成一个数据帧的列
问题描述
我有一列有多个数据框(总共 24 个)。我需要将所有这些组合到一个数据框中。我创建了索引并使用索引加入了索引,但是加入所有索引的速度很慢(所有索引的行数都相同)。
请注意,我使用的是 Pyspark 2.1
w = Window().orderBy(lit('A'))
df1 = df1.withColumn('Index',row_number().over(w))
df2 = df2.withColumn('Index',row_number().over(w))
joined_df = df1.join(df2,df1.Index=df2.Index,'Inner').drop(df2.Index)
df3 = df3.withColumn('Index',row_number().over(w))
joined_df = joined_df.join(df3,joined_df.Index=df3.Index).drop(df3.Index)
但是随着joined_df的增长,它变得越来越慢
DF1:
Col1
2
8
18
12
DF2:
Col2
abc
bcd
def
bbc
DF3:
Col3
1.0
2.2
12.1
1.9
预期成绩:
加入_df:
Col1 Col2 Col3
2 abc 1.0
8 bcd 2.2
18 def 12.1
12 bbc 1.9
解决方案
推荐阅读
- ios - 致命错误:在展开可选值 UIPageViewController 时意外发现 nil
- html - 如何使用蚂蚁设计在 ReactJS 中将半圆形蒙版应用于图像并在图像内添加按钮?
- azure - 有什么方法可以在不使用 Azure SQL 中的外部表的情况下从两个不同的数据库中查询两个表?
- android - 如何在构造函数之外初始化字段
- sql-server - 我可以为外部数据查询创建日期范围参数,特别是对于 JOIN SQL 查询(数据不是来自一个表)吗?
- overlay - KML 到 Foreflight 导入 - 更改图标
- java - CardView onClickListener 去另一个意图
- android - 为什么当我尝试从回收视图中搜索某些内容时,我的数据会重复?
- jquery - 查询所有元素的字段值相同的子文档数组
- nltk - WordNetLemmatizer 不在文本数据中进行词形还原