apache-kafka - Kafka要用哪个卷呢?
问题描述
我从事一个日志集中项目。
我正在与 ELK 合作收集/聚合/存储/可视化我的数据。我看到 Kafka 可用于处理大量数据,但我无法从使用它可能变得有趣的数据量中找到信息。
每天 10 Giga 的日志?更少 ?
谢谢你的帮助。
解决方案
让我们以两种方式解决这个问题。
Kafka 适合处理哪些数据量?Kafka 被大规模使用(Netflix、Uber、Paypal、Twitter等)和小规模。
如果需要,您可以从处理几 MB 的三个代理的集群开始,然后根据需要从那里向外扩展。每天 10 Gb 的数据在 Kafka 中是完全合理的——但少十倍或多十倍也是如此。
卡夫卡适合什么?在您的问题的上下文中,Kafka 充当系统之间的事件驱动集成点。它可能是一个“愚蠢”的管道,但因为它保留了数据,可以在其他地方重新使用它。它还提供本地流处理能力和与其他系统的集成。
如果您所做的只是将日志记录到 Elasticsearch 中,那么 Kafka 可能就有点过头了。但是,如果您想在其他地方(例如 HDFS、S3 等)使用该日志数据,或者处理它以获取模式,或者过滤它以获取路由到其他地方的条件——那么 Kafka 将是一个明智的选择来路由它。本演讲探讨了其中一些概念。
具体就 ELK 和 Kafka 而言,Logstash 和 Beats 可以写入 Kafka 作为输出,并且有一个用于 Elasticsearch 的 Kafka Connect 连接器
免责声明:我为 Confluent 工作。
推荐阅读
- angular - 滚动时角垫表粘性列重叠
- java - 如何在spring boot中处理异步请求超时?
- alarm - GMS2中Draw Event中的繁琐报警问题
- html-email - 有没有办法在松弛频道中显示 HTML 电子邮件的内容
- svg.js - 将绘制的形状导出为 SVG.js 中的图像
- node.js - React Native 多文件上传器,无论是图像还是视频
- php - PDO 在 try/catch 中没有给出错误响应
- graphql - GraphQL/Netlify CMS - 如果查询字段未定义(不存在),则不会出错
- spring - 在 Spring Boot 中添加自定义日志级别
- flutter - MaterialPageRoute 转到一个没有应用程序栏的新页面,将其与 bottomNavigationBar 一起使用