python - 如何使用 PySpark 在 spark.read.csv 的路径中传递变量
问题描述
我每天都在使用 PySpark 读取一个名为 AA_"current_date" 之类的 csv 文件,其中当然“current_date”每天都在变化。
问题是在 spark.read.csv 的路径内我想放一个变量,/AA_$current_date.csv
但我现在真的不知道如何实现这一点。
任何人都可以帮助我吗?
解决方案
>>> from datetime import date
>>> today = date.today().strftime("%d-%m-%Y")
>>> path = "AA_" + today + ".csv"
>>> base_path = "/home/user/"
>>> finalpath = base_path + path
>>> finalpath
'/home/user/AA_26-09-2019.csv'
>>> df1 = spark.read.format("csv").option("header","true").load(finalpath)
推荐阅读
- gitlab - 我可以对多个 gitlab 实例使用相同的 gitlab-runner 吗?
- sql - 如何在 SQL Server 中使用 CASE WHEN 函数
- css - 仅使用 css 如何选择第二级 li
- selenium - 使用自定义属性进行 Xunit 测试时,Selenium 浏览器启动两次
- swift - Swift 5 Conversion UnsafeBufferPointer 的这些内存功能是否相同
- r - 使用融化功能
- python - 在 Pandas 中为一组列设置新值
- mysql - Loopback 3 - 删除或编辑涉及映射表的嵌套模型
- javascript - 使用 .map 函数获取数据数组
- python - 如何将ajax发送的blob转换为python烧瓶中的音频文件