azure - Azure 数据工厂和数据流花费太多时间来处理从暂存到数据库的数据
问题描述
所以我有一个每天运行的数据工厂,它从 oracle 本地数据库中选择大约 80M 记录的数据并将其移动到 parquet 文件,这大约需要 2 个小时我想加快这个过程......还有数据在数据库中插入和更新数据的流程
镶木地板文件设置
下一步是从 parquet 文件调用数据流,将数据作为 upsert 移动到数据库,但这也需要太多时间
数据流设置
让我知道数据流的计算类型
内存优化 计算优化 通用
循环 更新后
下沉时间
解决方案
好吧,我推测 45 分钟将 85M 文件填充到 SQL DB 中并不可怕。您可以将任务分解为多个块,看看完成时间最长的是什么。您可以访问 Databricks 吗?我用 Databricks 做了很多预处理,我发现 Spark 超级超级快!!如果您可以在 Databricks 中进行预处理并将所有内容推送到您的 SQL 世界中,那么您可能会有一个最佳解决方案。
推荐阅读
- c# - 在实现生产者/消费者模式时使用 Task.Yield 克服 ThreadPool 饥饿
- c++ - 是否可以检测是否声明了局部变量?
- gulp - gulp 在 zip 存档中添加文件夹
- database - 将文件从 drupal 7 迁移到 drupal 8
- arm - arm-none-eabi 全局初始化变量值不正确
- android - RN 中类似于 Facebook 应用标头的动画
- spring - Spring Batch + Spring Boot + Couchbase
- angular - 我的问题是,模块“DashboardModule”导入的意外指令“BarChartComponent”。请添加@NgModule 注释
- postgresql - 翻译表的子查询出现错误
- sql-server - 使用副本数据库而不是使用启用 CDC 的数据库