首页 > 解决方案 > 如何在hadoop中构建代码目录

问题描述

我们正在建立新的项目级代码目录,它将为不同的子项目托管 PySpark、hive、Sqoop 和 shell 包装脚本。我们需要考虑长期目标来规划代码目录的结构。

目前我有这样的结构 -

Conf/
Scirpts/
  - hql
  - shell
  - pyspark
  ...

但是由于多个子项目开始有代码,文件太多,管理和搜索困难,上述结构变得混乱。

有人可以建议,根据过去的经验安排代码目录的理想方法或更好的方法是什么?

标签: hadoophdfs

解决方案


鉴于代码通常是从边缘节点提交的,我建议限制对某些用户的 SSH 访问,然后将 HDFS 至少划分为用户帐户...... HDFS 已经有一个/user目录,所以从那里开始。

Hortonworks 至少将 Hive /apps/hive/、Spark/apps/spark等的常用文件放在了,所以共享库就有了落地点。

如果您有不能放在单个目录中的项目特定文件并且需要比用户目录更细粒度的 ACL,那么/projects或者只是 HDFS 根目录中的全新文件夹应该没问题。

划分完全独立项目的 OCD 方法是设置HDFS 联合和命名空间,您可以在其中为公司内的每个主要计划设置一个 NameNode。


推荐阅读