首页 > 解决方案 > Lambda - 将 CSV 从 S3 导入 RDS MySQL

问题描述

我有一个 Lambda 函数,可以将特定的 CSV 文件从 S3 导入 MySQL。但是,CSV 的文件大小约为 1 GB。当我运行此代码时,它不会处理并超时。

//s3 to rds
const fs = require("fs");
const AWS = require('aws-sdk');
var mysql = require('mysql');
var config = require('./config.json');
const s3 = new AWS.S3({
  accessKeyId: 'XXXXXXXXXXXXXXX',
  secretAccessKey: 'XXXXXXXXXXXXXXXXXXXXXXXXXXxx'
});
var filePath = `localfilepath`;

var pool = mysql.createPool({
  host: config.dbhost,
  user: config.dbuser,
  password: config.dbpassword,
  database: config.dbname
});
pool.getConnection((err, connection) => {
  if (err) throw err;
  console.log("Connected!" + connection);

  var s3Params = {
    Bucket: '<your_bucket_name>',
    Key: '<your_key>'
  };
  s3.getObject(s3Params, function(err, result) {
    if (err) {
      throw new Error(err);
    } else {
      console.log('file stored successfully', result);
      fs.createWriteStream(filePath).write(result.Body);
      connection.query('TRUNCATE TABLE <table_name>', (err, result) => {
        if (err) {
         throw new Error(err);
        } else {
          console.log('table truncated');
          var query = `LOAD DATA LOCAL INFILE '<file_name>' INTO table <table_name> FIELDS TERMINATED BY ','  ENCLOSED BY '"' IGNORE 1 LINES `;
          connection.query(query, function(err, result) {
            if (err) throw err;
            console.log("Result: " + result);
            connection.release();
            fs.unlinkSync(filePath);
            console.log('file deleted');
          });
        }
      });
    }

  });
})

我怎样才能使它工作?

标签: node.jsamazon-web-servicesaws-lambdaamazon-rds

解决方案


根据这个线程,他们确实希望在某个时候实现,但是什么时候是最好的猜测场景。

AWS Lambda 当前在 /tmp 目录中有 512mb 磁盘空间的“硬限制”(如此处所述),因此由于文件大小为 1GB,因此该行在此处不应该工作fs.createWriteStream(filePath).write(result.Body);错误将类似于"no space left on device"(来自审查现有线程)。

但是,在这种情况下,从 S3 加载文件应该可以工作。Lambda 会按比例缩放内存和 CPU 大小,因此它可能会由于这里的内存不足而超时(取决于您设置的内容)。此链接很好地指示了您需要为此设置的内容(与您加载到内存和磁盘空间的内容有关)。

我建议在此阶段将流拆分为 512mb 块(包可能会有所帮助)并将它们分别存储在 S3 中,这样您就可以将此操作拆分为 2 个函数:

  1. 获取数据并拆分为单独的 s3 文件(也截断您的表)。
  2. 将 CSV 数据从 S3 加载回 RDS

(您可以为此使用Cloudwatch 事件)


推荐阅读