apache-spark - 版本 > 2.1.1 的 Spark 流比 2.1.1 慢
问题描述
我有一个带有 Spark 2.1.1 的 spark 流应用程序,在升级到更高版本后,我的性能更差(计算时间更长,基于 UI 统计数据)。具体来说,我将它与以下 spark 版本 2.3.1、2.3.3、2.4.3 和 2.4.4(最新)进行了比较。
我比较了配置 Spark 的配置页面,并没有发现可疑之处。关于我的案例,我使用 Pyspark,该应用程序是一个流式 API,它从 Kafka 读取,进行一些聚合并写入 HDFS 中的 parquet 文件。
有谁知道它在配置上发生了什么变化,性能变得更差了?
解决方案
推荐阅读
- python - TensorFlow/Keras - 预期 global_average_pooling2d_1_input 的形状为 (1, 1, 2048) 但得到的数组形状为 (7, 7, 2048)
- javascript - 从高阶函数返回数组
- python - 过滤时如何考虑dataFrame中的其他行?
- ios - 导航 pushViewController 不起作用
- r - 如何使用 R 中的官员包将表格添加到 Word 文档的标题?
- python-2.7 - 如何将子文件夹模块 python 导入另一个文件?
- c - 基于数据类型的 C 编程测验
- c# - 一种在 ValidationEventHandler 中释放资源的方法
- database - Oracle Forms - 错误 103,遇到符号“SELECT”
- pygame - 无法在 pygame ffs 上绘制 RECT