首页 > 解决方案 > Kafka要用哪个卷呢?

问题描述

我从事一个日志集中项目。

我正在与 ELK 合作收集/聚合/存储/可视化我的数据。我看到 Kafka 可用于处理大量数据,但我无法从使用它可能变得有趣的数据量中找到信息。

每天 10 Giga 的日志?更少 ?

谢谢你的帮助。

标签: apache-kafkabigdataelastic-stack

解决方案


让我们以两种方式解决这个问题。

  1. Kafka 适合处理哪些数据量?Kafka 被大规模使用(NetflixUberPaypalTwitter等)和小规模。

    如果需要,您可以从处理几 MB 的三个代理的集群开始,然后根据需要从那里向外扩展。每天 10 Gb 的数据在 Kafka 中是完全合理的——但少十倍或多十倍也是如此。

  2. 卡夫卡适合什么?在您的问题的上下文中,Kafka 充当系统之间的事件驱动集成点。它可能是一个“愚蠢”的管道,但因为它保留了数据,可以在其他地方重新使用它。它还提供本地流处理能力与其他系统的集成

    如果您所做的只是将日志记录到 Elasticsearch 中,那么 Kafka 可能就有点过头了。但是,如果您想在其他地方(例如 HDFS、S3 等)使用该日志数据,或者处理它以获取模式,或者过滤它以获取路由到其他地方的条件——那么 Kafka 将是一个明智的选择来路由它。本演讲探讨了其中一些概念。

具体就 ELK 和 Kafka 而言,Logstash 和 Beats 可以写入 Kafka 作为输出,并且有一个用于 Elasticsearch 的 Kafka Connect 连接器

免责声明:我为 Confluent 工作。


推荐阅读