首页 > 解决方案 > 为什么不将数据留在 HDFS 中,

问题描述

昨天我在coursera上学习GCP课程时,他们提到并坚持我们不应该将数据留在HDFS中,而是在完成工作后将其复制并保存在云存储中,每次我们想要要启动一项工作,我们应该将数据再次放入 HDFS 并重复循环,所以我的问题如下:

  1. 如果我们关闭 hadoop 集群,我们会丢失 HDFS 中的数据吗?
  2. 为什么我们不应该将数据留在 HDFS 中?
  3. 价格问题?

谢谢

标签: hadoopgoogle-cloud-platformhdfsgoogle-cloud-storage

解决方案


云存储与 HDFS 的优缺点

迁移到云存储

1. 缺点:

一个。Cloud Storage 可能会增加 I/O 差异。

湾。Cloud Storage 不支持文件追加或截断。

C。云存储不符合 POSIX。

d。Cloud Storage 可能不会公开所有文件系统信息。

e. 云存储可能有更大的请求延迟。

2. 优点:

一个。降低成本。

湾。与计算和存储分离。

C。互操作性。

d。HDFS 与同等(或更好)性能的兼容性。

e. 高数据可用性。

F。没有存储管理开销。

G。快速启动。

H。谷歌 IAM 安全。

一世。全球一致性。


推荐阅读