首页 > 解决方案 > 理想的 Spark 配置

问题描述

我在我们的项目中使用带有 MapR 的 HDFS 上的 Apache spark。我们面临运行 spark Jobs 的问题,因为它在数据小幅增加后失败。我们正在从 csv 文件中读取数据,进行一些转换、聚合,然后存储在 HBase 中。

当前数据大小 = 3TB

可用资源:节点总数:14 可用内存:1TB VCore 总数:450 磁盘总数:150 TB

Spark Conf:executorCores:2 executorInstance:50 executorMemory:40GB minPartitions:600

请建议,如果上面的配置看起来不错,因为错误看起来像是 outOfMemory。

标签: apache-sparkmapreducehdfsmapr

解决方案


你能谈谈工作是如何失败的吗?没有更多的信息,这将很难说。如果您要说出 Spark 的哪个版本以及您是在 Yarn 下运行还是在独立的 Spark 集群(甚至在 Kubernetes 上)运行,这将有所帮助

然而,即使没有任何信息,这里似乎也可能存在配置问题。可能发生的情况是,Spark 被告知有多少内存可用,因此当它尝试使用它认为允许使用的内存时,系统会拒绝。


推荐阅读