apache-spark - Spark - 按多列分组 VS 按从相同多列创建的 id 分组
问题描述
从多个列创建一个 id 然后按 分组是个好主意吗?也许按一列(id)对数据进行分组更有效?
例子:
my_dataframe = my_dataframe \
.withColumn("my_key", F.concat(F.col("column1"),
F.col("column2"),
F.col("column3"))) \
.groupBy(F.col("my_key")) \
.agg(...)
解决方案
推荐阅读
- apache-spark - spark-submit 抛出:错误 SparkContext:91 - 初始化 SparkContext 时出错。java.lang.NullPointerException
- android - OkHttp 泄露与 googleads.g.doubleclick.net 的连接
- c++ - 从另一个函数中删除动态数组
- firebase - Google 2FA 的 Firebase SDK 身份验证问题
- ios12 - 如何为 CALayer 的位置设置动画?
- java - Web服务获取Json
- caching - 播放框架 - 如何在 conf 文件中设置缓存超时
- excel - 检查行值是否增加/减少
- java - 错误:
预计与 addActionListener 类 - python - 实时排名django可扩展性问题