apache-spark - 多个订阅者可以使用 $default 消费者组订阅同一个 EventHub
问题描述
我有两个 Spark 作业,它们基本上使用 $default 消费者组订阅相同的 EventHub。它会起作用吗?
让我们假设将数据摄取到同一个事件中心的多个设备,假设现在将事件摄取 xyz 到事件中心,这两个火花作业都会得到这个 xyz?其次,是否有可能发生冲突,假设第一个 Spark 作业读取 x 分区,第二个 Spark 作业也尝试读取 x 分区。
Endpoint=sb://abc.servicebus.windows.net/;SharedAccessKeyName=allow;SharedAccessKey=abcd=;EntityPath=abc
val customEventhubParameters = EventHubsConf(connStr).setMaxEventsPerTrigger(maxEventTrigger)
val incomingStream = spark.readStream.format("eventhubs").options(customEventhubParameters.toMap).load();
logger.info("Data has been fetched from event hub successfully");
val messages = incomingStream.withColumn("Offset", $"offset".cast(LongType)).withColumn("Time (readable)", $"enqueuedTime".cast(TimestampType)).withColumn("Timestamp", $"enqueuedTime".cast(LongType)).withColumn("Body", $"body".cast(StringType)).select("Offset", "Time (readable)", "Timestamp", "Body")
implicit val formats = DefaultFormats;
val ob = new EventhubMaster();
解决方案
推荐阅读
- r - 与矩阵相交时避免 NA
- java - Partition模式下第一次执行select查询耗时10多分钟。(用两个节点点燃集群)
- android - 如何使用 Gradle 任务从命令行获取参数?
- mysql - 不能在旧版本 MySQL Query Browser 中使用 regexp_substr
- selenium - 尝试使用联合运算符(|)定位元素的子节点时出现 InvalidSelectorException
- c - 当我想用纯c解决leetcode.225时,出了点问题
- java - 使用骆驼和 readLock=none 流式传输文件
- python - Flask:如何覆盖蓝图路线?
- java - 在这种情况下如何查找入职日期最新的员工
- http-status-code-404 - 如果后端服务器之一关闭,haproxy 将在大约 2-3 秒内出现 404 错误