azure - 集群创建 HdInsight 和核心分配。调整 apache spark 提交

我想用 Spark 在 Azure Hd Insight 集群中处理一个 250gb gzip(filename.json.gzip) 文件。但我做不到。

我猜是因为内核、内存、vCPU 之间的关系不好，所以我想知道要创建的更好的集群和要发送的 Spark 配置。

目前我正在使用这个实例：

我的 Spark 配置是：

那么，在 Azure HDInsight 集群（链接到我可以创建的所有可用集群）和 Spark 提交配置中有更好的选择吗？

标签： azureapache-sparkpysparkazure-hdinsight

Apache Spark 作业的性能取决于多个因素。这些性能因素包括：数据的存储方式、集群的配置方式以及处理数据时使用的操作。

您可能面临的常见挑战包括：由于执行程序大小不当导致的内存限制、长时间运行的操作以及导致笛卡尔运算的任务。

还有许多优化可以帮助您克服这些挑战，例如缓存和允许数据倾斜。