首页 > 解决方案 > Databricks CSV 多次读取

问题描述

假设我有以下包含以下内容的 csv 文件

文件_20190901.csv

col1       col2         col3
data       20190901     A

文件_20190902.csv

col1       col2         col3
data       20190901     B
data       20190902     A

所以几天后,文件名 file_20190903.csv 会有

col1    col2         col3
data       20190902     B
data       20190903     A

所以现在的任务是将这些csv文件合并到数据框中,包括col2上的所有记录20190901到20190903,并使用最新的行数据。所以希望结果是

col1    col2         col3
data    20190901     B 
data    20190902     B
data    20190903     A

如何使用 Python 在 Databricks 中执行此操作?

标签: pythondatabricks

解决方案


从示例文件中,col2 具有相同的值,但 col3 具有不同的值。因此,您不能合并这两个文件。

文件_20190901.csv

col1 col2 col3

数据 20190901 A

文件_20190902.csv

col1 col2 col3

数据 20190901 B

如何读取多个 csv 文件:

将所有 csv 文件复制到 dbfs,如下所示:

在此处输入图像描述

然后创建一个python notebook,运行如下:

ReadMultiple = spark.read.format("csv").option("header", "true").load("/sample/*.csv")
display(ReadMultiple)

在此处输入图像描述

希望这可以帮助。


推荐阅读