首页 > 解决方案 > 如何使用 PySpark 在 spark.read.csv 的路径中传递变量

问题描述

我每天都在使用 PySpark 读取一个名为 AA_"current_date" 之类的 csv 文件,其中当然“current_date”每天都在变化。

问题是在 spark.read.csv 的路径内我想放一个变量,/AA_$current_date.csv但我现在真的不知道如何实现这一点。

任何人都可以帮助我吗?

标签: pythoncsvapache-sparkpyspark

解决方案


>>> from datetime import date
>>> today = date.today().strftime("%d-%m-%Y")
>>> path = "AA_" + today + ".csv"
>>> base_path = "/home/user/"
>>> finalpath = base_path + path
>>> finalpath
'/home/user/AA_26-09-2019.csv'
>>> df1 = spark.read.format("csv").option("header","true").load(finalpath)

推荐阅读