首页 > 解决方案 > 使用 pandas 获取表中所有列的不同计数

问题描述

我正在寻找表中所有列的不同计数。我想将表作为参数传递,然后使用 pandas 获取该表所有列的不同计数。我尝试使用下面的代码,但它给了我在数据块上的性能问题。任何改进此代码的输入

import pyspark.sqlfunctions as F
import pandas as pd

table_name = "Employee"
data = spark.table(table_name)

def unique(data_df):
 data = spark_df.agg(*(F.countDistinct(F.col(i)).alias(i) for i in spark_df.columns)).toPandas()
 return df.rename(index = {0: 'unique count').T

data1 = count_unique(data)

标签: pythonpandas

解决方案


推荐阅读