apache-spark - 如何使用 SPARK 将 JPG、PDF 文件加载到 HBASE?
问题描述
我在 HDFS 中有图像文件,我需要将它们加载到 HBase。我可以使用 SPARK 代替 MapReduce 来完成这项工作吗?如果是怎么做,请建议。我是 hadoop 生态系统的新手。
我创建了一个 MOB 类型的 Hbase 表,阈值为 10MB 大小。我被困在这里如何使用 shell 命令行加载数据。经过一些研究,有一些使用 MapReduce 的建议,但没有提供信息。
解决方案
您可以使用Apache Tika ...以及 sc.binaryFiles(filesPath)
Tika 支持的格式是格式
你需要的
图像格式 ImageParser 类使用标准 javax.imageio 功能从 Java 平台支持的图像格式中提取简单的元数据。更复杂的图像元数据可通过 JpegParser 和 TiffParser 类获得,它们使用元数据提取器库支持从 Jpeg 和 Tiff 图像中提取 Exif 元数据。和
可移植文档格式 PDFParser 类使用 Apache PDFBox 库解析可移植文档格式 (PDF) 文档。
Spark 的示例代码见我的回答
我在这里给出的另一个示例代码答案加载到 hbase
推荐阅读
- java - 需要帮助检查 Java 中 If/else 语句中的空格
- android - 将“zip”文件从 Android 设备发送到 Web 服务 Rest
- android - 如何打包我的 Android 库,以便我的客户不会遇到像“AAPT:错误:属性 layout_behavior”这样的错误
- reactjs - React-Redux-Saga history.push 正在更新 url,但没有加载组件
- c# - 为什么 char.Equals() 方法不适用于“.”、“+”、“-”、“/”或“*”
- reactjs - React Native 纸张搜索栏在按键时关闭键盘
- java - 颤振运行时颤振应用程序构建失败
- oracle - 如何在 ODI MAPPING 中的分区上使用行号
- python - 如何在python中将字典列表中的键值向上移动一级
- python - 是否有理由解开列表然后将其放回列表中?