hadoop - HDFS - 每分钟 100 MB 文件的块大小和复制
问题描述
如何知道 hadoop HDFS 的最佳块大小?例如,如果我有固定大小为每分钟 100MB 的文件,那么 HDFS 用于存储的理想块大小是多少?64MB?我应该考虑存储此文件的速度小于 1 分钟吗?我怎么计算?例如,在这种情况下,哪种复制因子最适合使用?2个还是3个?
解决方案
例如,在这种情况下,哪个复制因子最适合使用?2个还是3个?
取决于您的磁盘/数据中心的耐用程度。
如何知道 hadoop HDFS 的最佳块大小?
最佳大小是最大可能文件的一个因素。它不需要是 2 的因数
我应该考虑存储此文件的速度小于 1 分钟吗?
我建议您在每分钟写入许多 100MB 文件之前查看 NiFi 或 Streamsets 以预先聚合和压缩数据。此外,如果这实际上是 100MB 的纯文本,那么至少先使用 Snappy 压缩转换为 Avro 或 Parquet
推荐阅读
- python - 如何根据熊猫中的这些索引查找子字符串的第 n 次出现的索引并子集字符串
- outlook - 如何避免 VSTO Outlook 加载项因启动缓慢而被禁用?
- java - 不带键的 JSON 数组的 POJO [Long, Double]
- python - 对 diffie-hellman-group1-sha1 的扭曲支持
- amazon-web-services - 是否可以使用 Lambda 触发器 PreSignUp_AdminCreateUser 生成用户名?
- listview - 如何扩展 list.generate 中的元素
- featuretools - 如何从通过深度特征合成创建的 feature_def 中选择特征
- javascript - 使用 jsPDF 'bad /BBox' 下载带有自定义字体的 pdf 时出现问题
- json - Ionic JSON,将卡片添加到收藏夹
- python - 无法在scrapy爬虫中导入我自己的模块