首页 > 解决方案 > 集群创建 HdInsight 和核心分配。调整 apache spark 提交

问题描述

我想用 Spark 在 Azure Hd Insight 集群中处理一个 250gb gzip(filename.json.gzip) 文件。但我做不到。

我猜是因为内核、内存、vCPU 之间的关系不好,所以我想知道要创建的更好的集群和要发送的 Spark 配置。

目前我正在使用这个实例:

我的 Spark 配置是:

那么,在 Azure HDInsight 集群(链接到我可以创建的所有可用集群)和 Spark 提交配置中有更好的选择吗?

标签: azureapache-sparkpysparkazure-hdinsight

解决方案


Apache Spark 作业的性能取决于多个因素。这些性能因素包括:数据的存储方式、集群的配置方式以及处理数据时使用的操作。

您可能面临的常见挑战包括:由于执行程序大小不当导致的内存限制、长时间运行的操作以及导致笛卡尔运算的任务。

还有许多优化可以帮助您克服这些挑战,例如缓存和允许数据倾斜。

有关更多详细信息,请参阅在 HDInsight 中优化 Apache Spark 作业


推荐阅读