首页 > 解决方案 > Flink 如何在后台从 HDFS 读取多个文件?

问题描述

我有一个问题:我将排序(通过特定键,例如时间戳)的数据写入 HDFS 到多个文件中(每个文件 ~70GB 并且数据已排序)。我想通过 Flink 读取这些文件。但我必须确保对数据(跨文件)进行排序(排序)。

我的问题是:Flink 如何从 HDFS 读取文件?它是逐个文件读取还是按每个文件的块随机读取?

标签: hdfsapache-flink

解决方案


推荐阅读