首页 > 解决方案 > 以可扩展的方式在多台机器上同步大量文件

问题描述

我正在寻找一种将大量机器(数百台)与远程存储库同步的方法。

该存储库由小文件(大约 20KB)组成,但总数达到几 GB,并且随着时间的推移继续增长。

目标是让远程存储库中的更改尽可能快(不超过 2 秒)传播到所有机器。(同步)

有一些工具可以提供这种功能,例如S3 同步Rclone,但有一个主要缺点:

同步命令将需要枚举存储桶中的所有文件,以确定存储桶中是否已经存在本地文件,以及它是否与本地文件相同。存储桶中的文件越多,所需的时间就越长。这意味着一旦桶变大,即使是很小的变化也会花费很多时间。

我想知道是否有一种方法(工具或方法)可以只同步修改过的文件,而不必遍历所有文件。您可以想象源数据和远程元数据的比较,确定差异是什么并采取相应措施。

你会怎么做?

标签: amazon-s3configurationfilesystemsdistributedrclone

解决方案


推荐阅读