apache-spark - 理想的 Spark 配置

我在我们的项目中使用带有 MapR 的 HDFS 上的 Apache spark。我们面临运行 spark Jobs 的问题，因为它在数据小幅增加后失败。我们正在从 csv 文件中读取数据，进行一些转换、聚合，然后存储在 HBase 中。

当前数据大小 = 3TB

可用资源：节点总数：14 可用内存：1TB VCore 总数：450 磁盘总数：150 TB

Spark Conf：executorCores：2 executorInstance：50 executorMemory：40GB minPartitions：600

请建议，如果上面的配置看起来不错，因为错误看起来像是 outOfMemory。

标签： apache-sparkmapreducehdfsmapr

你能谈谈工作是如何失败的吗？没有更多的信息，这将很难说。如果您要说出 Spark 的哪个版本以及您是在 Yarn 下运行还是在独立的 Spark 集群（甚至在 Kubernetes 上）运行，这将有所帮助

然而，即使没有任何信息，这里似乎也可能存在配置问题。可能发生的情况是，Spark 被告知有多少内存可用，因此当它尝试使用它认为允许使用的内存时，系统会拒绝。