首页 > 解决方案 > 需要有关数据管道创建的设计输入

问题描述

对于所有 AWS 专家,我需要您的帮助来设计和构建大数据数据管道。以下是场景:-

我在 S3 中有大型 .gz 扩展文件,范围从 MB 到 GB。这些是 w3c 格式的日志文件压缩格式。现在,我希望将这些文件提取到 BigData 管道中,从文件中解压缩数据,然后将数据转换为所需的数据列。

你们所有的aws专家能否为我提供一些使用现成工具或开源工具或任何自定义工具的设计解决方案来实现上述数据管道。

标签: amazon-web-servicesapache-sparkhadoopamazon-kinesis

解决方案


根据火花文档

Spark 的所有基于文件的输入法,包括 textFile,都支持在目录、压缩文件和通配符上运行。例如,您可以使用 textFile("/my/directory")、textFile("/my/directory/ .txt") 和 textFile("/my/directory/ .gz")。

您所要做的就是将这些读入 RDD(无需单独解压缩),您可以进行任何您想要的转换。

logsRDD = sc.textFile("s3a://<directory>/*gz")

参考:
https ://community.hortonworks.com/questions/81191/spark-210-reading-gz-files-from-an-s3-bucket-or-di.html
http://spark.apache.org/docs /latest/rdd-programming-guide.html


推荐阅读