php - 从外部 FTP 服务器读取 > 1GB GZipped CSV 文件
问题描述
在我的 Laravel 应用程序的计划任务中,我正在外部 FTP 服务器上读取几个大的 gzip 压缩 CSV 文件,从 80mb 到 4gb 不等,其中包含我根据产品属性存储在数据库中的产品。
我循环浏览我想要导入的产品提要列表,但每次都返回致命错误:“允许的内存大小为 536870912 字节已用尽”。我可以提高fgetcsv
函数的长度参数,从1000
解决100000
较小文件(< 500mb)的问题,但对于较大的文件,它将返回致命错误。
有没有一种解决方案可以让我下载或解压缩 .csv.gz 文件、读取行(按批次或逐个)并将产品插入我的数据库而不会耗尽内存?
$feeds = [
"feed_baby-mother-child.csv.gz",
"feed_computer-games.csv.gz",
"feed_general-books.csv.gz",
"feed_toys.csv.gz",
];
foreach ($feeds as $feed) {
$importedProducts = array();
$importedFeedProducts = 0;
$csvfile = 'compress.zlib://ftp://' . config('app.ftp_username') . ':' . config('app.ftp_password') . '@' . config('app.ftp_host') . '/' . $feed;
if (($handle = fopen($csvfile, "r")) !== FALSE) {
$row = 1;
$header = fgetcsv($handle, 1, "|");
while (($data = fgetcsv($handle, 1000, "|")) !== FALSE) {
if($row == 1 || array(null) !== $data){ $row++; continue; }
$product = array_combine($header, $data);
$importedProducts[] = $product;
}
fclose($handle);
} else {
echo 'Failed to open: ' . $feed . PHP_EOL;
continue;
}
// start inserting products into the database below here
}
解决方案
问题可能不是 gzip 文件本身,当然你可以下载它,然后处理它,这将保持相同的问题。
因为您将所有产品加载到一个数组中(内存)
$importedProducts[] = $product;
您可以将此行注释掉,看看这是否会达到您的内存限制。
通常我会创建一个像 addProduct($product) 这样的方法来处理它的内存安全。
然后,您可以从那里确定最大数量的产品,然后再进行批量插入。为了达到最佳速度..我通常使用 1000 en 5000 行之间的东西。
例如
class ProductBatchInserter
{
private $maxRecords = 1000;
private $records = [];
function addProduct($record) {
$this->records[] = $record;
if (count($this->records) >= $this->maxRecords) {
EloquentModel::insert($this->records);
$this->records = [];
}
}
}
但是我通常不会将它实现为单个类,但在我的项目中,我曾经将它们集成为 BulkInsertable 特征,可以在任何 eloquent 模型上使用。
但这应该给你一个方向,你可以如何避免内存限制。
或者,更简单但速度慢得多,只需在您现在将其分配给数组的位置插入行。但这会给您的数据库带来可笑的负载,而且速度会非常慢。
如果 GZIP 流是瓶颈
正如我所料,这不是问题,但如果可以,那么您可以使用 gzopen()
https://www.php.net/manual/en/function.gzopen.php
并将 gzopen 句柄嵌套为 fgetcsv 的句柄。
但是我希望您正在使用的流处理程序已经以同样的方式为您执行此操作..
如果不是,我的意思是这样的:
$input = gzopen('input.csv.gz', 'r');
while (($row = fgetcsv($input)) !== false) {
// do something memory safe, like suggested above
}
如果您无论如何都需要下载它,有很多方法可以做到,但请确保您使用内存安全的东西,例如 fopen / fgets 或 guzzle 流,并且不要尝试使用类似 file_get_contents() 的东西将其加载到内存中
推荐阅读
- python - Django中的搜索栏?
- mongodb - 如何在多个文档中搜索有孩子的属性,而不知道文档的 ID
- mysql - 从嵌套选择语句中检索计数
- c++ - 什么是最合适的 c++ 替换 calloc?
- ms-access - 如何加强 MS Access 数据库以防止频繁的网络断开连接
- c# - 为什么降级我的框架版本然后再次升级允许此 .dll 正确加载?
- javascript - 如何过滤 S3 listObject 到一个确定的点?(与标记参数相反)
- azure-machine-learning-studio - 如何管理多个数据集 - Azure 机器学习
- c - 不了解 C 中静态 int 的功能
- c - dup2 没有切换到文件?