首页 > 解决方案 > 如何在 hadoop 中将 Excel 工作表中的数据和 Google 驱动器中的文件合并?

问题描述

我在 Excel 表中有学生的详细信息,在我的驱动器中有他们各自的文件。我应该如何使用 Hadoop 组合数据以便分析和得出结果?

标签: excelhadoop

解决方案


Excel 不是数据库,因此无法直接从 Hadoop 框架查询它,除非您的文件位于 HDFS 上(最好是像 Parquet 这样的单独格式),或者将其转换为适当的数据库。

选项 1) 将 Excel 导出为 CSV,然后上传到 Hadoop 并从那里继续

选项 2) 使用 Apache POI (Java) 或 Pandas (Python) Excel 库并自行与 Hive 集成,假设这就是您在这里所说的“Hadoop”的意思。

选项 3)使用 Spark-Excel


请注意,除非您有超过 100GB(大随机数)的学生数据,否则最好使用 MySQL 或 Postgres


推荐阅读