首页 > 解决方案 > 如何根据字段将数据从 CSV 加载到单独的 Hadoop HDFS 目录中

问题描述

我有一个 CSV 数据,我需要根据某个字段(年份)将其加载到 HDFS 目录中。我打算使用Java。我看过使用 BufferedReader 但是我在实现它时遇到了麻烦。这将是用于此任务的最佳方法还是有更好的方法?

标签: javahadoop

解决方案


使用 Spark 将 CSV 读入数据帧。

在写入 HDFS 期间使用partitionBy("year"),它将在year=以每个唯一值开头的路径下创建子文件夹。


推荐阅读