snowflake-cloud-data-platform - 了解雪花 kafka 连接器配置调优参数

问题描述

我正在使用适用于 Kafka Connect 平台的 Snowflake 连接器将大约 2000 个表从 Kafka 流式传输到 Snowflake。我想了解如何调整连接器的参数以获得最佳吞吐量。尽管我的主要兴趣是了解连接器参数，但也欢迎对 Kafka 和 Kafka Connect 设置提出建议。

我的主题大小范围从 < 1GB 到 100 GB。我们目前每个主题只有一个分区，并且这些主题使用 RoundRobin 分区器分布在 30 个连接器任务中。我们所有主题的最大消息大小配置为 3MB，并且我们使用 AVRO 和 lz4 压缩。

我们最大的主题之一有大约 70 亿个事件，并且仅以大约 2000 个事件/秒的速度转移到雪花。我想增加分区的数量是我的主要手段，但我也怀疑 2000 个事件/秒低于配置参数的变化可能。

我怀疑应该调整的参数是：

buffer.count.records- 默认 10000 个事件
buffer.flush.time- 默认 120 秒
buffer.size.bytes- 默认 5MB

目前我们正在使用默认值。

关于如何使用这些参数或其他参数来增加我们的吞吐量的任何建议？

标签： snowflake-cloud-data-platformapache-kafka-connect

snowflake-cloud-data-platform - 了解雪花 kafka 连接器配置调优参数

问题描述

解决方案

推荐阅读