首页 > 解决方案 > 将Kafka中的Avro转Parquet直接转入S3

问题描述

我在 Kafka 中有以 Avro 格式存储的主题。我想使用整个主题(在接收时不会更改任何消息)并将其转换为 Parquet,直接保存在 S3 上。

我目前正在这样做,但它需要我一次使用来自 Kafka 的消息并在本地机器上进行处理,将它们转换为 parquet 文件,一旦整个主题被使用并且 parquet 文件完全写入,关闭写入过程然后启动 S3 分段文件上传。或| Avro in Kafka -> convert to parquet on local -> copy file to S3 |简称。

我想做的是| Avro in Kafka -> parquet in S3 |

需要注意的一点是 Kafka 主题名称不是静态的,需要在参数中输入,使用一次,然后不再使用。

我已经研究了 Alpakka,它似乎是可能的——但目前还不清楚,我还没有看到任何例子。有什么建议么?

标签: amazon-s3apache-kafkaparquetapache-kafka-connect

解决方案


您刚刚描述了 Kafka Connect :)

Kafka Connect 是 Apache Kafka 的一部分,并带有S3 连接器插件。虽然,目前 Parquet 支持的开发仍在进行中

有关 Kafka Connect 的入门知识,请参阅http://rmoff.dev/ksldn19-kafka-connect


推荐阅读