apache-spark - 理想的 Spark 配置
问题描述
我在我们的项目中使用带有 MapR 的 HDFS 上的 Apache spark。我们面临运行 spark Jobs 的问题,因为它在数据小幅增加后失败。我们正在从 csv 文件中读取数据,进行一些转换、聚合,然后存储在 HBase 中。
当前数据大小 = 3TB
可用资源:节点总数:14 可用内存:1TB VCore 总数:450 磁盘总数:150 TB
Spark Conf:executorCores:2 executorInstance:50 executorMemory:40GB minPartitions:600
请建议,如果上面的配置看起来不错,因为错误看起来像是 outOfMemory。
解决方案
你能谈谈工作是如何失败的吗?没有更多的信息,这将很难说。如果您要说出 Spark 的哪个版本以及您是在 Yarn 下运行还是在独立的 Spark 集群(甚至在 Kubernetes 上)运行,这将有所帮助
然而,即使没有任何信息,这里似乎也可能存在配置问题。可能发生的情况是,Spark 被告知有多少内存可用,因此当它尝试使用它认为允许使用的内存时,系统会拒绝。
推荐阅读
- android - 当您开始使用 fultter -Darat 在您的第一个应用程序中初始化 gradle 文件时,是否有针对“Gradle”问题的真正解决方案
- django - 在导航项上呈现模板单击块内容而不加载整个页面(Django)
- reactjs - 在 Gatsby 中反应 Redux 钩子 useDispatch “无效的钩子调用”
- javascript - 如何在另一个 div 中获取一个 div id
- python - 在python中引发响应未准备好
- asp.net - 如何重定向到 asp.net 核心中的 url 并返回到相同的操作以查看?
- python - 如何使用 matplotlib 绘制从 ADC 获取的数据?没有绘制任何内容
- python - 无法连接小米手环 3
- php - 如何避免 laravel 中的缓存猛击?
- c++ - 将二叉树的节点插入链表(C++)