首页 > 解决方案 > 火花批量插入数百万条记录到 400 列 GC 限制的 sql 表中

问题描述

我对 spark scala 比较陌生,我正在尝试将包含数百万条记录的数据帧批量插入到 MS SQL 中。我正在使用Azure sqldb spark进行插入,但在进行实际插入之前 spark 会崩溃(超过 GC 限制或心跳没有响应)。

我尝试设置增加内存、执行程序、超时等,但仍然无法将其写入数据库。规范化 400 列的表模式对我来说不是一个选项。

感谢有关如何解决此问题的任何建议。提前致谢。

标签: scalaapache-sparkbulkinsertmssql-jdbc

解决方案


推荐阅读