首页 > 解决方案 > 我们可以使用 wholeTextFile 中的文件名来保存数据帧吗?

问题描述

我在 S3 存储桶中有多个文件,格式为“CHNC_P0BcDNAF_20200217”。我想一个一个地读取每个文件并在 pyspark 中做一些处理。处理后,我将处理后的镶木地板文件保存在从文件名中拆分出来的日期文件夹中。每个文件处理应该是单独的 spark 作业 例如对于上面的文件 datefolder 将是 20200217。

我可以从 wholeTextFile 中拆分文件名和日期,但不能使用它们来创建日期文件夹

标签: amazon-web-servicespysparkamazon-emr

解决方案


我得到了解决方案。我使用了一个 shell 脚本来列出我在 s3 中的所有输入文件名。然后我通过遍历每个文件来执行我的 spark 工作。通过将文件名作为参数传递给 spark 作业,我可以将每个文件作为不同的 spark 作业处理。我将文件名和日期从整个文本文件本身中拆分出来并保存在我的数据框中。谢谢


推荐阅读