首页 > 解决方案 > 写入 Cassandra 的 Spark 作业在最后阶段挂起

问题描述

我正在使用 Spark 将 2100 万条记录插入到 Cassandra 表中。火花作业大约需要一个小时并成功插入所有记录,但在最后阶段 (62/63) 挂起。

我的 Spark 属性:

spark.driver.memory 10g
spark.executor.cores 1
spark.executor.instances 40
spark.executor.memory 4g

将记录插入 Cassandra 并在最后阶段挂起的行 -

raw_data_final.rdd.saveToCassandra("marketing_dev1", "offer_detail_11", writeConf = WriteConf(ttl = TTLOption.perRow("ttl")))

如何使火花作业成功退出而不在最后阶段挂起?

标签: apache-sparkcassandra

解决方案


这似乎是一个数据倾斜的问题。请粘贴您的代码以进行进一步分析。

请检查 Cassandra 中是否插入了任何行。我怀疑会有任何插入发生。

除此之外,请提供您的示例数据并检查您是否提供了任何分区列来平均划分数据


推荐阅读