python - 使用 pandas 获取表中所有列的不同计数
问题描述
我正在寻找表中所有列的不同计数。我想将表作为参数传递,然后使用 pandas 获取该表所有列的不同计数。我尝试使用下面的代码,但它给了我在数据块上的性能问题。任何改进此代码的输入
import pyspark.sqlfunctions as F
import pandas as pd
table_name = "Employee"
data = spark.table(table_name)
def unique(data_df):
data = spark_df.agg(*(F.countDistinct(F.col(i)).alias(i) for i in spark_df.columns)).toPandas()
return df.rename(index = {0: 'unique count').T
data1 = count_unique(data)
解决方案
推荐阅读
- vhdl - 输出未连接到 rtl 中的其余设计
- java - 如何使用布尔多维数组、If 语句和全局 int 计算 John Conway 的生命游戏中存活的细胞数?
- javascript - 尝试返回页面线程时出现 Facebook Api Graph 错误
- xml - XML XPath - 仅在满足子条件时才选择父文本
- java - 为不变性编写单元测试
- javascript - javascript会创建一个全局x吗?
- javascript - 使用 Promises 链接方法
- vbscript - 带有 NPPEXEC 插件的 Notepad++
- c# - DrawEllipse:椭圆超出位图大小
- docker - adb 无法连接到在 docker 中运行的 Android 模拟器并产生僵尸进程