python - SQL 游标重构为 Spark 集群上的 Python 状态机
问题描述
现在,我维护着一个用 MS SQL 和 SSIS 实现的大型数据仓库,每晚通过批处理进行刷新。目前有一个夜间 ETL 过程,它获取过去 24 小时内收到的数据,通过 SQL Server 中的状态机实现使用游标和 t-sql 对其进行处理,并将其插入到事实表中。这个特定的过程大约需要 1 小时。作为学习练习和 POC,我想将数据转储到文件中,然后通过 Spark 集群使用 Python(State.py 库)处理数据,然后将其加载回 SQL Server。数据可以很容易地进行分区,因此可以将其分解为更小的块并并行处理。这听起来像是一个合理的策略吗?在开始这个 POC 之前,任何人都可以提供一些建议吗?谢谢!
解决方案
推荐阅读
- javascript - Emotion CSS-in-JS 库中的注释 /** @jsx jsx */ 有什么作用?
- ionic-framework - Ionic3 双向绑定在 cordova-plugin-antplus 上不起作用
- python - 需要检查是否存在多个目录
- haskell - Haskell - 通过前缀在列表中查找字符串
- excel - VBA函数添加两个单元格的值
- javascript - JavaScript regexp,没有得到所有匹配,我在这里错过了什么?
- lambda - 关于lamba表达式中return的问题
- jquery - 如何在jquery中为图像onclick添加给定的爆炸效果
- python - 玩家触碰宝宝时如何添加碰撞
- c# - c# 使用VSPE创建一个虚拟端口