首页 > 解决方案 > 从 pyspark 中的连接条件中获取列时出错

问题描述

我有 2 个 csv 文件我想在加入 2 个文件时将 csv 文件加载到 pyspark 中的数据帧中我没有任何问题但是在检索结果时我遇到了一个错误请帮助我

交付具有 21 列的 CSV 并匹配具有 18 列的 csv

我的代码如下所示

df1=spark.read.csv(r"C:\deliveries.csv",header=True,inferSchema=True)
df2=spark.read.csv(r"C:\matches.csv",header=True,inferSchema=True)
df  = df1.join(df2, df1.match_id == df2.id, how='inner')
df.show(10)

我收到以下错误,因为它太大,所以截断了计划的字符串表示。可以通过在 SparkEnv.conf 中设置“spark.debug.maxToStringFields”来调整此行为。

所以我尝试通过在 pyspark 中使用以下命令来增加大小

spark.conf.set("spark.sql.debug.maxToStringFields", 1000)

仍然面临同样的问题,我面临任何帮助表示赞赏

标签: apache-sparkpysparkapache-spark-sql

解决方案


推荐阅读