hadoop - 在现有 Hadoop 集群的数据节点上安装 NiFi(开源)
问题描述
如果您在现有 Hadoop 集群上有 10 个数据节点,您可以在 4 个或 6 个数据节点上安装 NiFi 吗?
NiFi 的主要目的是每天将数据从 RDBMS 加载到 HDFS,大容量。
Datanodes 将配置高 RAM,比如说 100GB。将使用外部 3 节点 Zookeeper 集群。
- 这种方法有什么重大问题吗?
- 在每个数据节点上安装 NiFi 是否更有意义,所以 10?
- 拥有 10 个 nifi 节点的大型集群是否有任何问题?
- 一些 NiFi 配置最佳实践会与 Hadoop 配置冲突吗?
编辑:目前使用 Hortonworks 2.6.5 版和开源 NiFi 1.9.2
解决方案
这种方法有什么重大问题吗?
Cloudera Data 平台与基于 Apache NiFi的Cloudera Dataflow集成,因此无需担心集成。
在每个数据节点上安装 NiFi 是否更有意义,所以 10?
取决于您期望的流量,但我认为 NiFi 是一个独立的服务,例如 Kafka、Zookeeper ......所以 3 个集群将是一个很好的开始,如果需要,可能会增加。不需要启动所有 DataNode。可以与 DataNode 共享这些服务,只需确保正确分配资源(内核、内存、存储......) - 这使用 Cloudera 更容易。
拥有 10 个 nifi 节点的大型集群是否有任何问题?
有关6) NiFi 集群线性扩展的更多信息。您应该有很多流量才能通过 10 个节点。
一些 NiFi 配置最佳实践会与 Hadoop 配置冲突吗?
这取决于您如何配置它。我建议两者都使用 Cloudera,它经过了很好的测试,可以一起工作。您可能最终不会获得服务的最新版本,但至少您具有更高的可靠性。
推荐阅读
- r - 与 data.table 的多个匹配最近的滚动连接
- dart - 检查 dart 的 main 函数内部是否启用了断言?
- r - 如何提取字符串的剩余子字符串
- python - 从服务器复制文件
- android - FaceDetector.findFaces 准确度参数
- typescript - 为什么 Typescript 在 foreach 中使用匿名函数时不显示错误,但在使用箭头函数时抛出正确的错误?
- java - 从图库中为 CircleImageView 选择照片
- python - Django AttributeError 'CreateUserForm' 对象没有属性 'username'
- scala - 我在哪里可以找到适用于 Pyspark 的 xgboost4j-1.1.2.jar 包的正确版本 sparkxgb.zip?
- r - 如何实现具有可调节列的 R 闪亮表?