python - 优化 spark sql 笛卡尔连接
问题描述
我必须对两个 3M 和 1M 的数据集执行笛卡尔连接。这意味着 3M 数据集中的每一行都应该连接到 1M 数据集中的每一行。之后,我必须在笛卡尔积上执行多个其他联接。使用 PySpark 运行代码大约需要 9 天。有什么办法可以优化吗?
解决方案
我之前遇到过同样的情况,但无法加入优化。所以我根据以下链接 https://spoddutur.github.io/spark-notes/distribution_of_executors_cores_and_memory_for_spark_application.html中提到的第三个选项更改了我的 spark 执行器配置 请检查这个出来
推荐阅读
- azure - 为什么azure区块链服务的Access key每天固定时间停止工作?
- php - 对象中的 PHP foreach 语法
- android - 尝试为 Android 项目构建 dockerfile 时出错
- python - 如何替换 JSON 文件中的值并将其附加到响应
- office-js - 需要实现什么 WOPI API 才能支持 body.insertOoxml OfficeJs API 调用
- google-cloud-platform - GCP 无法在具有以下角色的 GCP Console 上启用 Cloud Build:所有者、服务管理管理员、服务使用管理员
- java - 在方法中更新 JavaFX 阶段
- python - 如何在 AWS EMR 上安装 boto3?
- javascript - 从网址中删除“#”
- php - How to properly display a specific records with datatable using PHP