hadoop - 比较集群之间的海量数据
问题描述
我们的团队正在将旧的 CDH 集群迁移到新的 CDH 集群。
我的任务是将存储在非 kerberized 集群(旧集群)中的数据与存储在 kerberized 集群(新集群)中的数据进行比较。
kerberized 集群正在处理 isilon。非 kerberized 集群在普通 linux 上运行。
两个集群都有相同的 python 程序来将文件放入集群中进行配置单元分析。
每个分区的文件大小分别约为 45GB。
现在,我想通过使用 md5 等方法比较它们来证明每个 python 程序放置的数据是相同的。
当然,相同的程序输出相同的结果。但是我们对乱码的担忧,一些不可预测的数据丢失或文件大小是相同的,但值是不同的。
有没有办法比较这么大的数据?
解决方案
推荐阅读
- python - Pandas Dataframe df.at KeyError
- vhdl - 如何在 VHDL 中添加 LUT 以生成正弦波
- go - 如何计算尽可能晚在通道上发送的消息?
- ms-access-2016 - 如何将数据输入限制到特定单元格
- php - 将图像文件添加到我的服务器时出现问题
- mongodb - 在 MongoDB 中查找条件超过 5000 万条记录的查询
- angular - Angular中结构指令和属性指令之间的区别?
- kubernetes - Kubernetes minikube 上的 NFS 服务器报告“exportfs:/不支持 NFS 导出”
- php - Mpdf\MpdfException: Word 太长,无法放入表格
- node.js - 中间件后的快速赋值:赋值给这个原语的值将会丢失