首页 > 解决方案 > SQL 游标重构为 Spark 集群上的 Python 状态机

问题描述

现在,我维护着一个用 MS SQL 和 SSIS 实现的大型数据仓库,每晚通过批处理进行刷新。目前有一个夜间 ETL 过程,它获取过去 24 小时内收到的数据,通过 SQL Server 中的状态机实现使用游标和 t-sql 对其进行处理,并将其插入到事实表中。这个特定的过程大约需要 1 小时。作为学习练习和 POC,我想将数据转储到文件中,然后通过 Spark 集群使用 Python(State.py 库)处理数据,然后将其加载回 SQL Server。数据可以很容易地进行分区,因此可以将其分解为更小的块并并行处理。这听起来像是一个合理的策略吗?在开始这个 POC 之前,任何人都可以提供一些建议吗?谢谢!

标签: pythonsqlapache-spark-sqletl

解决方案


推荐阅读