apache-kafka - Kafka要用哪个卷呢？

我从事一个日志集中项目。

我正在与 ELK 合作收集/聚合/存储/可视化我的数据。我看到 Kafka 可用于处理大量数据，但我无法从使用它可能变得有趣的数据量中找到信息。

每天 10 Giga 的日志？更少？

谢谢你的帮助。

标签： apache-kafkabigdataelastic-stack

让我们以两种方式解决这个问题。

Kafka 适合处理哪些数据量？Kafka 被大规模使用（Netflix、Uber、Paypal、Twitter等）和小规模。

如果需要，您可以从处理几 MB 的三个代理的集群开始，然后根据需要从那里向外扩展。每天 10 Gb 的数据在 Kafka 中是完全合理的——但少十倍或多十倍也是如此。
卡夫卡适合什么？在您的问题的上下文中，Kafka 充当系统之间的事件驱动集成点。它可能是一个“愚蠢”的管道，但因为它保留了数据，可以在其他地方重新使用它。它还提供本地流处理能力和与其他系统的集成。

如果您所做的只是将日志记录到 Elasticsearch 中，那么 Kafka 可能就有点过头了。但是，如果您想在其他地方（例如 HDFS、S3 等）使用该日志数据，或者处理它以获取模式，或者过滤它以获取路由到其他地方的条件——那么 Kafka 将是一个明智的选择来路由它。本演讲探讨了其中一些概念。

具体就 ELK 和 Kafka 而言，Logstash 和 Beats 可以写入 Kafka 作为输出，并且有一个用于 Elasticsearch 的 Kafka Connect 连接器

免责声明：我为 Confluent 工作。