首页 > 解决方案 > 有关小型操作的 Azure ETL 解决方案的一般问题

问题描述

我们使用数据的方式要么是从其他组织检索调查数据,要么是自己创建调查工具并向我们组织下的组织征求数据。

我们有一个数据库,其中最大的表可能有 1000 万条记录。我们每年提取和上传大部分数据,偶尔需要对来自人口普查、美国社区调查等组织的大量表进行 ETL。我们的数据库都在 Azure 上,目前是我获取数据库的方式来自人口普查平面文件/.csv 文件的方法是将它们重新保存为 Excel 并使用 Excel 导入向导。

在将这些表(使用 Visual Studio)移动到我们的报告数据库之前,ETL 中的所有“T”都发生在我的暂存数据库中的编程过程中。

有没有我应该使用的更复杂的技术,如果有,它是什么?我在这件事上的所有教育都来自于阅读 Google 和观看 YouTube,因此我对所有不同术语的掌握都缺乏,并且在互联网上搜索 ETL 很难得到我认为应该是一个简单的答案。

有一段时间,我以为我们最终想使用 SSIS,但我了解到 SSIS 主要用于如果你有一个本地数据库。我尝试使用 BULK INSERT 查看动态 SQL,发现 BULK INSERT 不适用于 Azure DB。等等。

最近我一直在学习 Azure 数据工厂和使用 Windows Power Shell 的批量复制程序。

有人对我应该为小型 BI 报告解决方案使用什么技术有任何建议吗?

标签: azure-sql-databaseetl

解决方案


我建议您使用数据工厂,它对于大数据传输具有良好的性能。

在此处输入图像描述

此处参考:使用 ADF 可实现的复制性能和可扩展性

Copy Active支持您使用表数据、查询或存储过程来过滤 Source 中的数据:

在此处输入图像描述

Sink 支持您选择目标表、存储过程或自动创建表(批量插入)来接收数据:

在此处输入图像描述

数据工厂映射数据流为数据转换提供了更多功能。

参考:使用 Azure 数据工厂复制和转换 Azure SQL 数据库中的数据

希望这可以帮助。


推荐阅读