sql-server - 用于批量插入的从数据块到 sqlserver 的 Sql Apache Spark 连接器:性能问题
问题描述
这是我的问题陈述和要求,寻求帮助
“我们正在使用 spark 连接器将 delta 文件中的数据导入 azure sqlserver,我们的实体接近 6000 万条记录,此连接器帮助我们成功地从我的笔记本中导入数据。随着我们的实体不断增长,将数据导入 sqlserver 的需求也增加了负载,我们观察到随着负载的增加会出现一些性能问题。我观察到批量操作正在创建到 sqlsever 的多个连接,我可以看到为同一操作创建了 70 个连接范围(在我的情况下是插入批量),但只有一个正在运行,因为我有 tabblock 和其他在等待状态,但我的 CPU 消耗飙升至 100%,其他作业因此而失败。
我的问题:我们能否控制从 spark 连接器引发/操作的连接或并发,你能帮我解决这个问题,了解我们如何控制 CPU 的连接和消耗吗?
解决方案
推荐阅读
- maven - 如何配置多模块spring应用
- java - 查找货币价值的正则表达式
- canvas - 悬停在画布中的元素
- javascript - 使用 RequireJS 和 node 优化创建单个输出文件不包括所有必需的文件
- javascript - Number Input Accept value 小于 step
- sql - 为什么 SQL 查询执行时间过长?
- r - 使用 foreach 进行并行处理时出错:“找不到函数“%dopar%””
- json - Unity内置Json不序列化对象的公共属性
- android - Android Studio 3.1.4:ANDROID_SDK_HOME 设置为 SDK 的根目录
- node.js - 在 IIS8 上部署 Adonis JS 项目