首页 > 解决方案 > 为什么 EMR 的“Application History”中的 AWS “input”参数对于 Spark 应用程序来说如此之大?

问题描述

AWS EMR中,如果我们打开Application History选项卡,单击 的应用程序 id YARN applications,我们将看到许多作业:

在此处输入图像描述

最长的一个2.6h。如果我们点击它,我们会得到以下信息:

在此处输入图像描述

所以,在这里我真的很困惑为什么输入是1.4Tb因为我的输入数据集大小只有2Gb. 代码使用了一些参考数据集,它们100Gb的大小超过了,存储在 上S3,但在任何情况下,即使是组合的参考数据集也不会超过200Gb。它是在集群luigi Hail上运行的管道。Spark EMR我想知道为什么会这样?这很重要,因为我使用的所有节点的组合EBS内存都应该超过1.4Tb,否则集群会停止,就好像它没有足够的内存一样。

标签: amazon-web-servicesapache-sparkamazon-emr

解决方案


推荐阅读