首页 > 解决方案 > 如何使用 SPARK 将 JPG、PDF 文件加载到 HBASE?

问题描述

我在 HDFS 中有图像文件,我需要将它们加载到 HBase。我可以使用 SPARK 代替 MapReduce 来完成这项工作吗?如果是怎么做,请建议。我是 hadoop 生态系统的新手。

我创建了一个 MOB 类型的 Hbase 表,阈值为 10MB 大小。我被困在这里如何使用 shell 命令行加载数据。经过一些研究,有一些使用 MapReduce 的建议,但没有提供信息。

标签: apache-sparkhbase

解决方案


您可以使用Apache Tika ...以及 sc.binaryFiles(filesPath)Tika 支持的格式是格式

你需要的

图像格式 ImageParser 类使用标准 javax.imageio 功能从 Java 平台支持的图像格式中提取简单的元数据。更复杂的图像元数据可通过 JpegParser 和 TiffParser 类获得,它们使用元数据提取器库支持从 Jpeg 和 Tiff 图像中提取 Exif 元数据。和

可移植文档格式 PDFParser 类使用 Apache PDFBox 库解析可移植文档格式 (PDF) 文档。

Spark 的示例代码见我的回答

在这里给出的另一个示例代码答案加载到 hbase


推荐阅读