pyspark - 如何在 Databrick 中截断和/或使用通配符
问题描述
我正在尝试在 databricks 中编写一个脚本,该脚本将根据文件名中的某些字符或仅根据文件中的日期戳来选择文件。
例如,以下文件如下所示:
LCMS_MRD_Delta_LoyaltyAccount_1992_2018-12-22 06-07-31
我在 Databricks 中创建了以下代码:
import datetime
now1 = datetime.datetime.now()
now = now1.strftime("%Y-%m-%d")
使用上面的代码,我尝试使用以下方法选择文件:
LCMS_MRD_Delta_LoyaltyAccount_1992_%s.csv'% now
但是,如果您仔细观察,您会注意到日期戳和时间戳之间有一个空格,即在 22 和 06 之间
LCMS_MRD_Delta_LoyaltyAccount_1992_2018-12-22 06 -07-31
这是因为如果这个空间阻止了我上面的代码工作。
我认为 Databricks 不支持通配符,因此以下内容不起作用:
LCMS_MRD_Delta_LoyaltyAccount_1992_%s.csv'% now
有人曾经建议截断时间戳。
有人可以让我知道是否:
A.TRUNCATING 将解决这个问题 B.我的代码有办法吗LCMS_MRD_Delta_LoyaltyAccount_1992_%s.csv'% now
选择整个文件?请记住,我绝对需要根据当前日期进行选择。我只想能够使用我的代码在文件上进行选择。
解决方案
您可以使用 dbutils 读取文件名,并可以在 if 语句中检查模式是否匹配:如果现在在 filname 中。因此,您无需直接读取具有特定模式的文件,而是获取文件列表,然后复制与所需模式匹配的具体文件。
以下代码适用于 databricks python 笔记本:
1. 将三个文件写入文件系统:
data = """
{"a":1, "b":2, "c":3}
{"a":{, b:3}
{"a":5, "b":6, "c":7}
"""
dbutils.fs.put("/mnt/adls2/demo/files/file1-2018-12-22 06-07-31.json", data, True)
dbutils.fs.put("/mnt/adls2/demo/files/file2-2018-02-03 06-07-31.json", data, True)
dbutils.fs.put("/mnt/adls2/demo/files/file3-2019-01-03 06-07-31.json", data, True)
2. 将电影名读取为列表:
文件 = dbutils.fs.ls("/mnt/adls2/demo/files/")
3.获取实际日期:
import datetime
now = datetime.datetime.now().strftime("%Y-%m-%d")
print(now)
输出:2019-01-03
4.复制实际文件:
for i in range (0, len(files)):
file = files[i].name
if now in file:
dbutils.fs.cp(files[i].path,'/mnt/adls2/demo/target/' + file)
print ('copied ' + file)
else:
print ('not copied ' + file)
输出:
未复制 file1-2018-12-22 06-07-31.json
未复制 file2-2018-02-03 06-07-31.json
复制文件 3-2019-01-03 06-07-31.json
推荐阅读
- ios - 更新后结构崩溃:[Fabric isCrashlyticsCollectionEnabled]:无法识别的选择器发送到类 0x10c0bb918
- c - 在 ubuntu 18.04 上的 c 文件中未定义对“readline”的引用(已安装 libreadline-dev,与“-lreadline”链接
- c# - .NET CORE(在 Windows 上),DataReceived 调用一个serialPort 的频率受其他serialPort 影响
- c++ - 为什么我的变量会突然改变?
- postgresql - 为什么我在插入 postgres 后得到 ErrNoRows("sql: no rows in result set"),即使插入实际上成功了?
- python - 带有lxml的Xpath返回空字符串,硒工作正常
- php - Swagger-php 如何排除整个 /vendor 文件夹但附加一个带有共享模型的子文件夹
- bash - 在 jenkins 中使用脚本在不同阶段运行
- makefile - 相同的规则,不同的先决条件
- javascript - 用户使用框架 7 关闭应用程序后如何维护用户会话?