azure - Azure 数据工厂和数据流花费太多时间来处理从暂存到数据库的数据

问题描述

所以我有一个每天运行的数据工厂，它从 oracle 本地数据库中选择大约 80M 记录的数据并将其移动到 parquet 文件，这大约需要 2 个小时我想加快这个过程......还有数据在数据库中插入和更新数据的流程

镶木地板文件设置

下一步是从 parquet 文件调用数据流，将数据作为 upsert 移动到数据库，但这也需要太多时间

数据流设置

让我知道数据流的计算类型

内存优化计算优化通用

循环更新后

下沉时间

标签： azureazure-data-factoryazure-data-factory-2

好吧，我推测 45 分钟将 85M 文件填充到 SQL DB 中并不可怕。您可以将任务分解为多个块，看看完成时间最长的是什么。您可以访问 Databricks 吗？我用 Databricks 做了很多预处理，我发现 Spark 超级超级快！！如果您可以在 Databricks 中进行预处理并将所有内容推送到您的 SQL 世界中，那么您可能会有一个最佳解决方案。

azure - Azure 数据工厂和数据流花费太多时间来处理从暂存到数据库的数据

问题描述

解决方案

推荐阅读