hadoop - 在 Kubernetes 上使用 Hadoop
问题描述
我开发了一个基于Hadoop的大数据分析系统。
我想在 Kubernetes 上将系统容器化。现在我使用 helm 上的 stable hadoop chart 来设置 hadoop,但是我分析的数据通常高达 100GB。
并且 kubernetes 只能使用 / 目录的容量。换句话说,我的hadoop作业不能使用其他磁盘的资源。
Kubernetes 是否有其他方法可以将其他磁盘资源用作容器作业(而不是卷)。
或者我可以在非系统磁盘上设置 Kubernetes 的工作节点吗?
解决方案
基于Hadoop
您可以将与 Hadoop兼容的文件系统与任何 Hadoop-API 系统一起使用,包括 Kubernetes 上的 Apache Spark。
您不需要Hadoop/YARN/MapReduce “基于 Hadoop”
换句话说,尝试在 Rook 项目 (Ceph) 或 MinIO (S3-like) 这样的环境中正常工作的其他东西
但是,我建议不要将您的数据湖存储放在临时容器中
推荐阅读
- php - 预匹配返回空数组
- r - 删除不遵循 r 中日期序列的事件
- python - OSError:[Errno 13] 尝试运行 python3 -m pyftpdlib -p 21 时出现权限被拒绝消息
- python - 依次运行 2 个 Keras 模型和分别运行 2 个 Keras 模型的不同结果
- javascript - 在 PHP 中模拟 WebCrypto RSA-OAEP 加密
- plotly - 选择/复制 Plotly Hovertext
- html - 引导 CSS 和 pandas DataFrame.to_html。如何添加类?
- ios - 如何动态获取IOS模拟器设备的UID,然后安装到那个设备中
- python - 查找 1d 数组在 2d 数组中重复次数最多的最佳方法
- python - 无法使用 pandas read_csv 正确读取引号