amazon-s3 - Flink Streaming 应用程序以 parquet 格式写入 s3
问题描述
我正在开发一个 Flink 流应用程序,它使用来自 kafaka/kinesis 的消息,在处理它们之后,它必须每隔 5 分钟以 parquet 格式将输出写入 S3。
请提出一种方法来实现这一点,因为我面临很多问题。
目前我正在使用 Flink 1.4.2,因为我正在考虑将它部署在 AWS EMR 5.15 集群上。
方法已经尝试过 - 我使用了模块“flink-s3-fs-hadoop”和 parquet api 和 flink“BucketingSink”
解决方案
推荐阅读
- javascript - vue-select 允许多个重复项
- macos - macOS Catalina 上的应用程序“无法打开,因为无法验证其完整性”
- python - 你怎么知道一个 Locust 实例是作为 master 还是 worker 运行?
- bash - 如何在 awk NR 中传递变量值
- python - 我如何只在 Python 中循环某个东西?
- matlab - 按组快速求和的矩阵索引
- python - Python 从 Sagemaker model.tar.gz 获取模型估计器对象(用于预测实例解释)
- c# - 如何根据玩家方向调整对象旋转?
- animation - 如何在 A-Frame 中更新 GLTF 模型的修改顶点?
- mysql - MySQL IF THEN AS 语法