首页 > 解决方案 > 从外部 FTP 服务器读取 > 1GB GZipped CSV 文件

问题描述

在我的 Laravel 应用程序的计划任务中,我正在外部 FTP 服务器上读取几个大的 gzip 压缩 CSV 文件,从 80mb 到 4gb 不等,其中包含我根据产品属性存储在数据库中的产品。

我循环浏览我想要导入的产品提要列表,但每次都返回致命错误:“允许的内存大小为 536870912 字节已用尽”。我可以提高fgetcsv函数的长度参数,从1000解决100000较小文件(< 500mb)的问题,但对于较大的文件,它将返回致命错误。

有没有一种解决方案可以让我下载或解压缩 .csv.gz 文件、读取行(按批次或逐个)并将产品插入我的数据库而不会耗尽内存?

$feeds = [
    "feed_baby-mother-child.csv.gz",
    "feed_computer-games.csv.gz",
    "feed_general-books.csv.gz",
    "feed_toys.csv.gz",
];

foreach ($feeds as $feed) {
    $importedProducts = array();
    $importedFeedProducts = 0;

    $csvfile = 'compress.zlib://ftp://' . config('app.ftp_username') . ':' . config('app.ftp_password') . '@' . config('app.ftp_host') . '/' . $feed;

    if (($handle = fopen($csvfile, "r")) !== FALSE) {
        $row = 1;
        $header = fgetcsv($handle, 1, "|");
                
        while (($data = fgetcsv($handle, 1000, "|")) !== FALSE) {
            if($row == 1 || array(null) !== $data){ $row++; continue; }
                    
            $product = array_combine($header, $data);
            $importedProducts[] = $product;
        }

        fclose($handle);
    } else {
        echo 'Failed to open: ' . $feed . PHP_EOL;
        continue;
    }
    
    // start inserting products into the database below here
}

标签: phplaravelcsvfgetcsv

解决方案


问题可能不是 gzip 文件本身,当然你可以下载它,然后处理它,这将保持相同的问题。

因为您将所有产品加载到一个数组中(内存)

$importedProducts[] = $product;

您可以将此行注释掉,看看这是否会达到您的内存限制。

通常我会创建一个像 addProduct($product) 这样的方法来处理它的内存安全。

然后,您可以从那里确定最大数量的产品,然后再进行批量插入。为了达到最佳速度..我通常使用 1000 en 5000 行之间的东西。

例如

class ProductBatchInserter
{
    private $maxRecords = 1000;
    private $records = [];
    
    function addProduct($record) {
        $this->records[] = $record;
        if (count($this->records) >= $this->maxRecords) {
           EloquentModel::insert($this->records);
           $this->records = [];
        }
    }
}

但是我通常不会将它实现为单个类,但在我的项目中,我曾经将它们集成为 BulkInsertable 特征,可以在任何 eloquent 模型上使用。

但这应该给你一个方向,你可以如何避免内存限制。

或者,更简单但速度慢得多,只需在您现在将其分配给数组的位置插入行。但这会给您的数据库带来可笑的负载,而且速度会非常慢。

如果 GZIP 流是瓶颈

正如我所料,这不是问题,但如果可以,那么您可以使用 gzopen()

https://www.php.net/manual/en/function.gzopen.php

并将 gzopen 句柄嵌套为 fgetcsv 的句柄。

但是我希望您正在使用的流处理程序已经以同样的方式为您执行此操作..

如果不是,我的意思是这样的:

$input = gzopen('input.csv.gz', 'r'); 


while (($row = fgetcsv($input)) !== false) {
 // do something memory safe, like suggested above
}

如果您无论如何都需要下载它,有很多方法可以做到,但请确保您使用内存安全的东西,例如 fopen / fgets 或 guzzle 流,并且不要尝试使用类似 file_get_contents() 的东西将其加载到内存中


推荐阅读