python - 如何在 Python 中执行 groupby 并在 Spark 上快速计数?
问题描述
我一直在尝试在 Spark DataFrame 上执行 GroupBy 和 count() 很长时间,但是处理它需要永远......
下面的行大约需要 13 秒来处理。从我的角度来看,我认为这需要太多时间,但我不知道如何减少处理时间。
matched.limit(100).groupBy('Date','Period').agg(count("*").alias('cnt')).show()
我正在使用以下配置在 Spark 2.4 上运行:驱动程序:2 vCPU 8 GB RAM 10 执行程序:2 vCPU 8 GB RAM
谁能给我一个关于如何解决这个问题的提示?
解决方案
这是正确的方法,我认为。花费时间将取决于那里有多少行。
df.groupBy('Date', 'Period').count().show(10, False)
推荐阅读
- php - QueryException SQLSTATE[HY000] [2002] 连接被拒绝
- python - 列表索引必须是整数或切片,而不是 str.x
- c++ - 如何使用智能指针声明二维数组?
- python - 替换索引数组下方的numpy 2D数组元素
- azure-cosmosdb - 连接到 Cosmos DB 中的多个集合
- angular - ng-invalid 类已应用于 formArrayName 容器
- node.js - 在 Firebase Cloud Functions 上启动函数而不等待它们返回的正确方法
- spring - WildFly:从 Wildfly 模块访问 war/lib 类
- constructor - @Autowired 与构造函数一起使用
- r - 如果 html_nodes 循环出错,请尝试填写“”