首页 > 解决方案 > Gobblin 中的 HDFS 回溯配置

问题描述

我看到 Hive 到 hive 的数据移动在 Gobblin 中有一个回顾配置,我们可以在其中指定我们要使用的分区的哪些日期进行复制

gobblin.data.management.copy.hive.filter.LookbackPartitionFilterGenerator

Gobblin 中的 HDFS 到 GCS(谷歌云存储)数据复制是否有类似的回溯配置,只能在特定分区日期之后复制文件?

我在 HDFS 中有我的文件,这些文件按日期分区。

标签: hadoophdfsgobblin

解决方案


如果您希望将时间分区的 HDFS 文件复制到 GCS,您可以使用 TimeAwareCopyableGlobDatasetFinder。此数据集查找器实例化 TimeAwareRecursiveCopyableDataset,它接受配置以指定回顾时间,指定为天数/小时/分钟数。底层的 distcp 作业会将数据集的所有分区复制到指定的回溯时间。

例如,如果您有兴趣复制过去 2 天数据集的所有每小时分区,您的 Gobblin distcp 作业将包括以下配置:

gobblin.dataset.profile.class="org.apache.gobblin.data.management.copy.TimeAwareCopyableGlobDatasetFinder"
gobblin.dataset.pattern=/root/dataset/path
gobblin.copy.recursive.date.pattern=yyyy-MM-dd-HH
gobblin.copy.recursive.lookback.time=2d

推荐阅读