amazon-web-services - 需要有关数据管道创建的设计输入
问题描述
对于所有 AWS 专家,我需要您的帮助来设计和构建大数据数据管道。以下是场景:-
我在 S3 中有大型 .gz 扩展文件,范围从 MB 到 GB。这些是 w3c 格式的日志文件压缩格式。现在,我希望将这些文件提取到 BigData 管道中,从文件中解压缩数据,然后将数据转换为所需的数据列。
你们所有的aws专家能否为我提供一些使用现成工具或开源工具或任何自定义工具的设计解决方案来实现上述数据管道。
解决方案
根据火花文档
Spark 的所有基于文件的输入法,包括 textFile,都支持在目录、压缩文件和通配符上运行。例如,您可以使用 textFile("/my/directory")、textFile("/my/directory/ .txt") 和 textFile("/my/directory/ .gz")。
您所要做的就是将这些读入 RDD(无需单独解压缩),您可以进行任何您想要的转换。
logsRDD = sc.textFile("s3a://<directory>/*gz")
参考:
https ://community.hortonworks.com/questions/81191/spark-210-reading-gz-files-from-an-s3-bucket-or-di.html
http://spark.apache.org/docs /latest/rdd-programming-guide.html
推荐阅读
- wordpress - 如何在 AWS lightail 上恢复丢失的 WordPress 管理员权限
- python - Django Admin 更改/修改内联文本“添加另一个”
- reactjs - 从 Firebase 存储调用图像 - 无效的钩子调用。Hooks 只能在函数组件的主体内部调用
- flutter - 在颤动中将 html 小部件共享给其他 Android 应用程序
- delphi - Delphi Pascal 5 中的 Eratosthenes 筛
- python - PyObjC:访问 MPNowPlayingInfoCenter
- c++ - C++20 缩写函数模板的限制
- c - 在c中将字符串转换为time_t
- owl - 通过dotNetRDF从owl获取DataProperty的值
- python - Facebook Prophet,识别我的数据的季节性