excel - 如何在 hadoop 中将 Excel 工作表中的数据和 Google 驱动器中的文件合并?
问题描述
我在 Excel 表中有学生的详细信息,在我的驱动器中有他们各自的文件。我应该如何使用 Hadoop 组合数据以便分析和得出结果?
解决方案
Excel 不是数据库,因此无法直接从 Hadoop 框架查询它,除非您的文件位于 HDFS 上(最好是像 Parquet 这样的单独格式),或者将其转换为适当的数据库。
选项 1) 将 Excel 导出为 CSV,然后上传到 Hadoop 并从那里继续
选项 2) 使用 Apache POI (Java) 或 Pandas (Python) Excel 库并自行与 Hive 集成,假设这就是您在这里所说的“Hadoop”的意思。
选项 3)使用 Spark-Excel
请注意,除非您有超过 100GB(大随机数)的学生数据,否则最好使用 MySQL 或 Postgres
推荐阅读
- django - 通过 ForeignKey 查询模型以接收另一个 ForeignKey 中的数据?
- c++ - 在预处理/编译期间内联汇编到字节码?
- c# - Roslyn 代码修复测试调用 `VerifyDiagnostics` 也为固定代码样本,这使得测试永远不会成功
- reactjs - 如何修复“'nf' 未被识别为内部或外部命令”?
- php - 避免 WooCommerce Dokan 中父订单的订单完成通知
- javascript - 这个历史时区偏移 UTC+0057 是怎么回事?
- pandas - 替换熊猫数据框中 int64 末尾的数字
- node.js - 在该位置创建带有数字的目录
- java - Java Spring Boot:如何实现以 2 个字段作为参数的 Redis 查询?
- html - Catalina - 如何使用 file:// 打开 html 文件 - 沙盒 / 安全