amazon-web-services - 我们可以使用 wholeTextFile 中的文件名来保存数据帧吗?
问题描述
我在 S3 存储桶中有多个文件,格式为“CHNC_P0BcDNAF_20200217”。我想一个一个地读取每个文件并在 pyspark 中做一些处理。处理后,我将处理后的镶木地板文件保存在从文件名中拆分出来的日期文件夹中。每个文件处理应该是单独的 spark 作业 例如对于上面的文件 datefolder 将是 20200217。
我可以从 wholeTextFile 中拆分文件名和日期,但不能使用它们来创建日期文件夹
解决方案
我得到了解决方案。我使用了一个 shell 脚本来列出我在 s3 中的所有输入文件名。然后我通过遍历每个文件来执行我的 spark 工作。通过将文件名作为参数传递给 spark 作业,我可以将每个文件作为不同的 spark 作业处理。我将文件名和日期从整个文本文件本身中拆分出来并保存在我的数据框中。谢谢
推荐阅读
- whmcs - 调用“OpenTicket”时出现 WHMCS API 错误
- google-app-engine - 从另一个 API 访问谷歌机器学习 API
- python-3.x - 无法使用 python 在 Linux 服务器中创建文本文件
- google-cloud-platform - Google Cloud Functions 的单元测试
- php - Symfony 相关验证或验证组
- c# - 如何使用 C# 库为 Dialogflow 发送音频 - DetectIntent
- java - Android WebView 应用程序永远重新加载 url
- html - 为什么查询不会保存在 csv 文件中,而在 postgresql 控制台中看起来很正常
- elasticsearch - 设置 Elastic Search 单节点集群的问题
- json - 如何编写一个函数来检测和替换加载的 JSON 中的 url?