首页 > 解决方案 > 将 PySpark 数据帧转换为 pandas 数据帧的时间长度

问题描述

假设我们有两个 PySpark 数据帧df1并且df2 具有相同的模式。假设id是两个数据帧的键,df1包含 ids1, 2, 3, 4, 5, 6, 7df2包含 ids 8, 9, 10

这些操作(toPandas()操作)中的任何一个是否会比其他操作花费更长的时间:

ids = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
df_combined = df1.union(df2)
df_combined = df_combined.filter(df_combined.id.isin(ids))

df_pd = df_combined.toPandas()

相对

df_pd = df1.toPandas()

标签: python-3.xapache-sparkpyspark

解决方案


推荐阅读