首页 > 解决方案 > 如何在 pyspark 数据帧的一行中找到一组列的平均值并将其作为另一列添加到同一数据帧?

问题描述

我有一个由 500 列组成的 DataFrame,对于每一行,我需要获取以"country_".

expr=[F.sum(train_data_df[x])/colCount for x in train_data_df.columns if 'country_' in x]
avg_train_data_df = train_data_df.withColumn('avg', *expr)

我收到以下错误响应:

TypeError: withColumn() takes 3 positional arguments but 212 were given

标签: pythondataframepyspark

解决方案


推荐阅读