首页 > 解决方案 > 比较集群之间的海量数据

问题描述

我们的团队正在将旧的 CDH 集群迁移到新的 CDH 集群。

我的任务是将存储在非 kerberized 集群(旧集群)中的数据与存储在 kerberized 集群(新集群)中的数据进行比较。

kerberized 集群正在处理 isilon。非 kerberized 集群在普通 linux 上运行。

两个集群都有相同的 python 程序来将文件放入集群中进行配置单元分析。

每个分区的文件大小分别约为 45GB。

现在,我想通过使用 md5 等方法比较它们来证明每个 python 程序放置的数据是相同的。

当然,相同的程序输出相同的结果。但是我们对乱码的担忧,一些不可预测的数据丢失或文件大小是相同的,但值是不同的。

有没有办法比较这么大的数据?

标签: hadoophiveisilon

解决方案


推荐阅读