hdfs - Flink 如何在后台从 HDFS 读取多个文件?
问题描述
我有一个问题:我将排序(通过特定键,例如时间戳)的数据写入 HDFS 到多个文件中(每个文件 ~70GB 并且数据已排序)。我想通过 Flink 读取这些文件。但我必须确保对数据(跨文件)进行排序(排序)。
我的问题是:Flink 如何从 HDFS 读取文件?它是逐个文件读取还是按每个文件的块随机读取?
解决方案
推荐阅读
- apache-spark - 在 Databricks 上将 spark.databricks.service.server.enabled 设置为 true 时会发生什么?
- java - 如何从这个 Json 获取消息
- javascript - 重新渲染时反应自定义挂钩状态未更新
- openedx - 什么是打开 Edx 中的 raise Exception("Can't fetch setting of a disabled backend/provider.")?
- flutter - 如何从 for 循环中返回一个小部件,其中包含颤动的 json 数据?
- android - 定义接口时如何保持 Kotlin 属性语法?
- java - 如何找到重叠区域?
- java - FtpInboundFileSynchronizer - 设置过滤器未按预期工作
- c# - 从 DataGridView ID 列构建 ID 列表作为 PostgreSQL 数据库查询过滤器的整数数组
- python - 为什么我们需要再次拟合模型才能获得分数?