hadoop - 为什么不将数据留在 HDFS 中,
问题描述
昨天我在coursera上学习GCP课程时,他们提到并坚持我们不应该将数据留在HDFS中,而是在完成工作后将其复制并保存在云存储中,每次我们想要要启动一项工作,我们应该将数据再次放入 HDFS 并重复循环,所以我的问题如下:
- 如果我们关闭 hadoop 集群,我们会丢失 HDFS 中的数据吗?
- 为什么我们不应该将数据留在 HDFS 中?
- 价格问题?
谢谢
解决方案
迁移到云存储
1. 缺点:
一个。Cloud Storage 可能会增加 I/O 差异。
湾。Cloud Storage 不支持文件追加或截断。
C。云存储不符合 POSIX。
d。Cloud Storage 可能不会公开所有文件系统信息。
e. 云存储可能有更大的请求延迟。
2. 优点:
一个。降低成本。
湾。与计算和存储分离。
C。互操作性。
d。HDFS 与同等(或更好)性能的兼容性。
e. 高数据可用性。
F。没有存储管理开销。
G。快速启动。
H。谷歌 IAM 安全。
一世。全球一致性。
推荐阅读
- jupyter-notebook - 无法重命名 jupyter 笔记本中的文件夹
- c# - 如何修复静态方法中的控件 - Visual basic c#
- php - PHP计算总小时数没有得到准确的答案
- jquery - 要存储在变量中的选项的 JQUERY 值
- python-3.x - 按行读取文件,其中行分隔符是十六进制数字
- mongodb - Mongodb c#ElemMatch 不适用于数组
- django - 防止 Jinja 代码在 CKEditor 4 中打包成一行?
- javascript - 用 span 替换每个字符
- image - 保存图像的最佳方法是什么?作为实际图像还是base64?
- file - 在如何将类导入单独的文件中需要帮助