首页 > 解决方案 > 诊断 boto3 中的内存泄漏

问题描述

我有一个在 Elastic Beanstalk 上运行的 celery 工作者,它轮询 SQS 队列、获取消息(包含 S3 文件名)、从 S3 下载这些文件并处理它们。我的工作人员计划每 15 秒运行一次,但由于某种原因,内存使用量随着时间的推移而不断增加。

这是我用来访问 SQS 的代码

def get_messages_from_sqs(queue_url, queue_region="us-west-2", number_of_messages=1):
    client = boto3.client('sqs', region_name=queue_region)
    sqs_response = client.receive_message(QueueUrl=queue_url, MaxNumberOfMessages=number_of_messages)
    messages = sqs_response.get("Messages", [])
    cleaned_messages = []
    for message in messages:
        body = json.loads(message["Body"])
        data = body["Records"][0]
        data["receipt_handle"] = message["ReceiptHandle"]
        cleaned_messages.append(data)
    return cleaned_messages

def download_file_from_s3(bucket_name, filename):
    s3_client = boto3.client('s3')
    s3_client.download_file(bucket_name, filename, '/tmp/{}'.format(filename))

完成该过程后,我们是否需要在 boto3 中关闭客户端连接?如果是这样,我们该怎么做? 内存监视器图

标签: pythondjangomemoryceleryboto3

解决方案


我在生产中使用 Celery 遇到了类似的问题,与 Boto 完全无关。虽然我没有对内存泄漏的解释(这需要一些认真的代码探索和分析),但如果您的目标只是不耗尽内存,我可以提供一个潜在的解决方法。

设置每个孩子的最大任务数应该允许您在被终止进程释放时不断回收内存。


推荐阅读