首页 > 解决方案 > 版本 > 2.1.1 的 Spark 流比 2.1.1 慢

问题描述

我有一个带有 Spark 2.1.1 的 spark 流应用程序,在升级到更高版本后,我的性能更差(计算时间更长,基于 UI 统计数据)。具体来说,我将它与以下 spark 版本 2.3.1、2.3.3、2.4.3 和 2.4.4(最新)进行了比较。

我比较了配置 Spark 的配置页面,并没有发现可疑之处。关于我的案例,我使用 Pyspark,该应用程序是一个流式 API,它从 Kafka 读取,进行一些聚合并写入 HDFS 中的 parquet 文件。

有谁知道它在配置上发生了什么变化,性能变得更差了?

标签: apache-sparkpysparkapache-spark-sqlspark-streaming

解决方案


推荐阅读