amazon-s3 - 将Kafka中的Avro转Parquet直接转入S3
问题描述
我在 Kafka 中有以 Avro 格式存储的主题。我想使用整个主题(在接收时不会更改任何消息)并将其转换为 Parquet,直接保存在 S3 上。
我目前正在这样做,但它需要我一次使用来自 Kafka 的消息并在本地机器上进行处理,将它们转换为 parquet 文件,一旦整个主题被使用并且 parquet 文件完全写入,关闭写入过程然后启动 S3 分段文件上传。或| Avro in Kafka -> convert to parquet on local -> copy file to S3 |
简称。
我想做的是| Avro in Kafka -> parquet in S3 |
需要注意的一点是 Kafka 主题名称不是静态的,需要在参数中输入,使用一次,然后不再使用。
我已经研究了 Alpakka,它似乎是可能的——但目前还不清楚,我还没有看到任何例子。有什么建议么?
解决方案
您刚刚描述了 Kafka Connect :)
Kafka Connect 是 Apache Kafka 的一部分,并带有S3 连接器插件。虽然,目前 Parquet 支持的开发仍在进行中。
有关 Kafka Connect 的入门知识,请参阅http://rmoff.dev/ksldn19-kafka-connect
推荐阅读
- php - WordPress 条件后循环
- javascript - 在我的 html 页面上添加阅读更多内容会产生奇怪的行为
- javascript - Paypal 按钮返回“无法捕获订单”
- apache - 为什么 Apache 2.4 永久重定向(301)这个到非 www?
- terraform - 如何使用 template_file 从另一个 shell 执行 shell 脚本?
- python - 使用 Python 从 MySQL 中检索整数以执行数学函数
- angular - Angular 5 - dist 文件夹中缺少配置文件
- javascript - 官方 React 教程,使用 Hooks:为什么会有额外的重新渲染?
- halide - 卤化物可以与 SOC 平台一起使用吗?
- amazon-ec2 - 无法访问 EC2 实例上托管的简单节点 Web 服务器