首页 > 解决方案 > 优化 spark sql 笛卡尔连接

问题描述

我必须对两个 3M 和 1M 的数据集执行笛卡尔连接。这意味着 3M 数据集中的每一行都应该连接到 1M 数据集中的每一行。之后,我必须在笛卡尔积上执行多个其他联接。使用 PySpark 运行代码大约需要 9 天。有什么办法可以优化吗?

标签: pythonpython-3.xapache-sparkpysparkapache-spark-sql

解决方案


我之前遇到过同样的情况,但无法加入优化。所以我根据以下链接 https://spoddutur.github.io/spark-notes/distribution_of_executors_cores_and_memory_for_spark_application.html中提到的第三个选项更改了我的 spark 执行器配置 请检查这个出来


推荐阅读