java - 如何根据字段将数据从 CSV 加载到单独的 Hadoop HDFS 目录中
问题描述
我有一个 CSV 数据,我需要根据某个字段(年份)将其加载到 HDFS 目录中。我打算使用Java。我看过使用 BufferedReader 但是我在实现它时遇到了麻烦。这将是用于此任务的最佳方法还是有更好的方法?
解决方案
使用 Spark 将 CSV 读入数据帧。
在写入 HDFS 期间使用partitionBy("year")
,它将在year=
以每个唯一值开头的路径下创建子文件夹。
推荐阅读
- matlab - webots 2020a-rev1 snap 控制器 matlab 问题 Ubuntu 18.04.3
- reactjs - Instana 与 create-react-app 集成以下载源映射以报告错误
- python-3.x - 图像分类器ValueError:检查目标时出错:预期dense_31有2维,但得到的数组形状为(1463、224、224、3)
- joomla - 带有照片和重定向的 joomla 问题
- python - Python/Matplotlib - 为同一图形上的多个散点图设置颜色栏
- css - 避免菜单 li 底部阴影 css
- reactjs - 如何通过 Web 套接字发送实时视频的图像并将其存储在 React 状态变量中?
- python - 具有来自目录的流的多输入模型
- javascript - 谷歌驱动器总是通过 API 导出空白 pdf
- database - 如何使用 NoSQL 按特定日期范围内的投票对帖子进行排序?