首页 > 解决方案 > Azure 数据工厂和数据流花费太多时间来处理从暂存到数据库的数据

问题描述

所以我有一个每天运行的数据工厂,它从 oracle 本地数据库中选择大约 80M 记录的数据并将其移动到 parquet 文件,这大约需要 2 个小时我想加快这个过程......还有数据在数据库中插入和更新数据的流程

镶木地板文件设置

花了很多时间在此处输入图像描述

下一步是从 parquet 文件调用数据流,将数据作为 upsert 移动到数据库,但这也需要太多时间

数据流设置

在此处输入图像描述

让我知道数据流的计算类型

内存优化 计算优化 通用

在此处输入图像描述

在此处输入图像描述

循环 更新后

在此处输入图像描述

下沉时间

在此处输入图像描述

标签: azureazure-data-factoryazure-data-factory-2

解决方案


好吧,我推测 45 分钟将 85M 文件填充到 SQL DB 中并不可怕。您可以将任务分解为多个块,看看完成时间最长的是什么。您可以访问 Databricks 吗?我用 Databricks 做了很多预处理,我发现 Spark 超级超级快!!如果您可以在 Databricks 中进行预处理并将所有内容推送到您的 SQL 世界中,那么您可能会有一个最佳解决方案。


推荐阅读