首页 > 解决方案 > 用于批量插入的从数据块到 sqlserver 的 Sql Apache Spark 连接器:性能问题

问题描述

这是我的问题陈述和要求,寻求帮助

“我们正在使用 spark 连接器将 delta 文件中的数据导入 azure sqlserver,我们的实体接近 6000 万条记录,此连接器帮助我们成功地从我的笔记本中导入数据。随着我们的实体不断增长,将数据导入 sqlserver 的需求也增加了负载,我们观察到随着负载的增加会出现一些性能问题。我观察到批量操作正在创建到 sqlsever 的多个连接,我可以看到为同一操作创建了 70 个连接范围(在我的情况下是插入批量),但只有一个正在运行,因为我有 tabblock 和其他在等待状态,但我的 CPU 消耗飙升至 100%,其他作业因此而失败。

我的问题:我们能否控制从 spark 连接器引发/操作的连接或并发,你能帮我解决这个问题,了解我们如何控制 CPU 的连接和消耗吗?

标签: sql-serverscalaapache-sparkbulkinsertazure-databricks

解决方案


推荐阅读