apache-nifi - 边缘 NiFi 处理器内集群节点之间的内容分布
问题描述
我正在探索 NiFi 文档。我必须同意它是有据可查的开源项目之一。
我的理解是处理器在集群的所有节点上运行。但是,我想知道当我们使用 FetchS3Object、FetchHDFS 等内容拉取处理器时,内容是如何在集群节点之间分布的。在 FetchHDFS 或 FetchSFTP 等处理器中,所有节点都会连接到源吗?它是拆分内容并从多个节点获取,还是一个节点获取内容并在下游队列中对其进行负载平衡?
解决方案
@dagget 的答案传统上是处理这种情况的方法,通常被称为“list + fetch”模式。列表处理器仅在主节点上运行,列表发送到 RPG 以在整个集群中重新分配,输入端口接收列表并连接到并行提取的所有节点上运行的提取处理器。
在 1.8.0 中,现在有负载平衡连接,无需 RPG。您仍将仅在主节点上运行 List 处理器,然后将其直接连接到 Fetch 处理器,并在其间配置队列以实现负载平衡。
推荐阅读
- nginx - NGINX 为什么我从子文件夹到 IP 地址的重定向不起作用?
- .net - 设置不记名令牌 HttpClient .NET 不起作用
- python - 找不到模块“...”(或其依赖项之一)。尝试使用带有构造函数语法的完整路径
- python - python -m path.to.file 而不是 python path/to/file.py
- reactjs - 延迟渲染反应
- postgresql - 尝试在 Airflow PostgresHook 中获取 upsert 行为时出错
- c# - 使用 OWIN OpenIdConnect 身份验证的 GetExternalLoginInfo 始终为空
- mysql - NodeJS - 使用 MySql 查询占位符导致 1064 ER_PARSE_ERROR
- wpf - WPF中带有TextBlock的滑块拇指
- mysql - 直接比较 TIMESTAMP 与使用月和日函数