首页 > 解决方案 > HDFS - 每分钟 100 MB 文件的块大小和复制

问题描述

如何知道 hadoop HDFS 的最佳块大小?例如,如果我有固定大小为每分钟 100MB 的文件,那么 HDFS 用于存储的理想块大小是多少?64MB?我应该考虑存储此文件的速度小于 1 分钟吗?我怎么计算?例如,在这种情况下,哪种复制因子最适合使用?2个还是3个?

标签: hadoophdfs

解决方案


例如,在这种情况下,哪个复制因子最适合使用?2个还是3个?

取决于您的磁盘/数据中心的耐用程度。

如何知道 hadoop HDFS 的最佳块大小?

最佳大小是最大可能文件的一个因素。它不需要是 2 的因数

我应该考虑存储此文件的速度小于 1 分钟吗?

我建议您在每分钟写入许多 100MB 文件之前查看 NiFi 或 Streamsets 以预先聚合和压缩数据。此外,如果这实际上是 100MB 的纯文本,那么至少先使用 Snappy 压缩转换为 Avro 或 Parquet


推荐阅读