amazon-web-services - 为什么 EMR 的“Application History”中的 AWS “input”参数对于 Spark 应用程序来说如此之大?
问题描述
在AWS EMR
中,如果我们打开Application History
选项卡,单击 的应用程序 id YARN applications
,我们将看到许多作业:
最长的一个2.6h
。如果我们点击它,我们会得到以下信息:
所以,在这里我真的很困惑为什么输入是1.4Tb
因为我的输入数据集大小只有2Gb
. 代码使用了一些参考数据集,它们100Gb
的大小超过了,存储在 上S3
,但在任何情况下,即使是组合的参考数据集也不会超过200Gb
。它是在集群luigi
Hail
上运行的管道。Spark EMR
我想知道为什么会这样?这很重要,因为我使用的所有节点的组合EBS
内存都应该超过1.4Tb
,否则集群会停止,就好像它没有足够的内存一样。
解决方案
推荐阅读
- html - 如何使长标题文本成为两条直线
- mobile - 在 Tableau 中创建设备特定视图(用于平板电脑或手机)
- django - Django ImageField 在上传时按 ID 创建新文件夹?
- authentication - Microsoft 身份锁定选项
- javascript - Vuejs,HTML:重新渲染或去除 html 标签
- r - 如何避免运行 R 脚本的 Docker 容器在 SIGPIPE 错误后停止?
- c++ - 我想创建一个二维向量,每个索引都是 int 的向量
- kotlin - 确定值是否是集合的一部分的公式
- javascript - Javascript动画持续时间在计算机之间更改
- hadoop - 如何解决 apache sqoop 导出格式错误?