hadoop - 如何在hadoop中构建代码目录
问题描述
我们正在建立新的项目级代码目录,它将为不同的子项目托管 PySpark、hive、Sqoop 和 shell 包装脚本。我们需要考虑长期目标来规划代码目录的结构。
目前我有这样的结构 -
Conf/
Scirpts/
- hql
- shell
- pyspark
...
但是由于多个子项目开始有代码,文件太多,管理和搜索困难,上述结构变得混乱。
有人可以建议,根据过去的经验安排代码目录的理想方法或更好的方法是什么?
解决方案
鉴于代码通常是从边缘节点提交的,我建议限制对某些用户的 SSH 访问,然后将 HDFS 至少划分为用户帐户...... HDFS 已经有一个/user
目录,所以从那里开始。
Hortonworks 至少将 Hive /apps/hive/
、Spark/apps/spark
等的常用文件放在了,所以共享库就有了落地点。
如果您有不能放在单个目录中的项目特定文件并且需要比用户目录更细粒度的 ACL,那么/projects
或者只是 HDFS 根目录中的全新文件夹应该没问题。
划分完全独立项目的 OCD 方法是设置HDFS 联合和命名空间,您可以在其中为公司内的每个主要计划设置一个 NameNode。
推荐阅读
- vuejs2 - 在Vue中,v-model.trim的目的是什么
- javascript - 使用 anguler ActivatedRouter 快照参数获取 json
- python - `kubectl rollout restart 的 Python 客户端 euqivelent
- coding-style - 以编程方式访问 Roslyn 中的代码分析结果
- c# - C# - float.parse 忽略点
- python - 线程功能块 main 并非一直如此
- elasticsearch - 在 Elastic Search 6 中允许多个映射
- machine-learning - Sklearn ValueError: Expected 2D array, got 1D array instead:
- node.js - NPM 不正确的依赖解析顺序
- wordpress - 使用 WooCommerce REST API 更新时,产品不显示在新类别中