python - 优化 spark sql 笛卡尔连接

我必须对两个 3M 和 1M 的数据集执行笛卡尔连接。这意味着 3M 数据集中的每一行都应该连接到 1M 数据集中的每一行。之后，我必须在笛卡尔积上执行多个其他联接。使用 PySpark 运行代码大约需要 9 天。有什么办法可以优化吗？

标签： pythonpython-3.xapache-sparkpysparkapache-spark-sql

我之前遇到过同样的情况，但无法加入优化。所以我根据以下链接 https://spoddutur.github.io/spark-notes/distribution_of_executors_cores_and_memory_for_spark_application.html中提到的第三个选项更改了我的 spark 执行器配置请检查这个出来