amazon-web-services - 从 Glue 目录和 Glue Py Spark 脚本中的动态路径同步 CSV 文件
问题描述
我每天都将 CSV 文件存储在 AWS s3 中。Bellow是我的S3文件路径结构:
s3://data-dl/abc/d=2019-09-19/2019-09-19-data.csv
在这种结构中,每天都会生成 s3 文件路径的日期部分。
现在我想使用 AWS 胶水进行 ETL 将数据从 S3 传送到 Redshift。要使用它,如何在数据目录中添加 S3 路径?我只想同步最近的文件夹 CSV 文件。
同样对于作业部分,我如何在 Glue Pyspark 脚本中声明此动态路径?
解决方案
如果您只想同步,则不需要 etl。您可以使用copy
redshift 中的命令进行同步。您可以按计划的时间间隔运行 python shell 作业,或者使用 s3 事件编写 lambda/sns 以在所有文件进入 s3 时立即触发。
推荐阅读
- machine-learning - 适合 MNIST 的逻辑回归的最佳求解器的选择
- ios - Swift - 如何在 plist 的键中添加空格
- php - 提高 PHP FTP 执行速度?
- angular - Angular 6 中的查询参数在 apache Web 服务器中丢失
- javascript - 如何在猫鼬数据库中实现继承以获得良好的编码实践?
- scala - 如何在 Scala 中将 Map[Map[String,Int],Int] 转换为 Map[String,Int]?
- c# - 在需要时从 Azure 服务总线获取消息
- python - “KeyError”:(列标题)批量下载数据集并删除行时?
- javascript - 提交表单后 HTML 表未更新(额外刷新页面后更新)
- ios - UIView 隐藏动画在 iOS 12 中不起作用