performance - DataProc 处理时间超过 3 小时,比预期的不到 15 分钟
问题描述
我已经迁移了一部分 C 应用程序以使用 PySpark 作业在 DataProc 上进行处理(读取和写入 Big Query - 数据量 - 大约 10 GB)。在本地数据中心运行 8 分钟的 C 应用程序在 Data Proc 上大约需要 4 小时。有人可以告诉我最佳的 Data Proc 配置吗?目前我正在使用以下一个:
--master-machine-type n2-highmem-32 --master-boot-disk-type pd-ssd --master-boot-disk-size 500 --num-workers 2 --worker-machine-type n2-highmem -32 --worker-boot-disk-type pd-ssd --worker-boot-disk-size 500 --image-version 1.4-debian10
非常感谢有关最佳数据处理配置的任何帮助。
谢谢, RP
解决方案
以下是一些关于 Dataproc 作业性能调优的好文章:Spark 作业调优技巧和10 个关于 Hadoop 和 Spark 集群性能的问题。
推荐阅读
- c# - 无法理解 CSharp 中的正则表达式行为
- node.js - 无法使用 NodeJS 将图像插入 MongoDB 服务器
- python-3.x - Python 新手,我应该为此代码使用类函数吗?
- c# - 如何返回其他类中 onchanged() 方法反映的目录
- php - Laravel / Lumen formRequest 在提交所有有效值时抛出错误
- java - Twilio SDK java.lang.ClassNotFoundException:找不到类“org.webrtc.EncodedImage”
- azure-functions - 如何在 serverless 计算上防止数据库瓶颈?
- mysql - PhpMyadmin 在 Select Query 中添加了添加参数
- google-apps-script - 如何从 Google App Script 中的另一张表构建自动更新的主预算?
- node.js - 从 AWS DynamoDB 检索最新数据