hadoop - Gobblin 中的 HDFS 回溯配置
问题描述
我看到 Hive 到 hive 的数据移动在 Gobblin 中有一个回顾配置,我们可以在其中指定我们要使用的分区的哪些日期进行复制
gobblin.data.management.copy.hive.filter.LookbackPartitionFilterGenerator
Gobblin 中的 HDFS 到 GCS(谷歌云存储)数据复制是否有类似的回溯配置,只能在特定分区日期之后复制文件?
我在 HDFS 中有我的文件,这些文件按日期分区。
解决方案
如果您希望将时间分区的 HDFS 文件复制到 GCS,您可以使用 TimeAwareCopyableGlobDatasetFinder。此数据集查找器实例化 TimeAwareRecursiveCopyableDataset,它接受配置以指定回顾时间,指定为天数/小时/分钟数。底层的 distcp 作业会将数据集的所有分区复制到指定的回溯时间。
例如,如果您有兴趣复制过去 2 天数据集的所有每小时分区,您的 Gobblin distcp 作业将包括以下配置:
gobblin.dataset.profile.class="org.apache.gobblin.data.management.copy.TimeAwareCopyableGlobDatasetFinder"
gobblin.dataset.pattern=/root/dataset/path
gobblin.copy.recursive.date.pattern=yyyy-MM-dd-HH
gobblin.copy.recursive.lookback.time=2d
推荐阅读
- java - 将文件读入arraylist
- python - Python Gurobi 中线性整数规划的约束违规
- c - 一个 malloc 调用可以用来分配两个数组吗?
- c++ - 如何在 SDI 项目中使用 UI 线程
- azure - 在 Azure Web 应用程序中运行 docker 容器:没有响应端口上的 HTTP ping
- docker - 用不同的服务器连接两个容器
- reactjs - accept 和 canDrop(useDrop 属性)无法正常工作以防止采用重复的项目类型
- android - 自定义 Android 搜索栏
- android - 如何将约束放在片段上?
- rundeck - 自动生成 Rundeck 密码 MD5