python - Databricks CSV 多次读取

假设我有以下包含以下内容的 csv 文件

文件_20190901.csv

col1       col2         col3
data       20190901     A

文件_20190902.csv

col1       col2         col3
data       20190901     B
data       20190902     A

所以几天后，文件名 file_20190903.csv 会有

col1    col2         col3
data       20190902     B
data       20190903     A

所以现在的任务是将这些csv文件合并到数据框中，包括col2上的所有记录20190901到20190903，并使用最新的行数据。所以希望结果是

col1    col2         col3
data    20190901     B 
data    20190902     B
data    20190903     A

如何使用 Python 在 Databricks 中执行此操作？

标签： pythondatabricks

从示例文件中，col2 具有相同的值，但 col3 具有不同的值。因此，您不能合并这两个文件。

文件_20190901.csv

col1 col2 col3

数据 20190901 A

文件_20190902.csv

col1 col2 col3

数据 20190901 B

如何读取多个 csv 文件：

将所有 csv 文件复制到 dbfs，如下所示：

然后创建一个python notebook，运行如下：

ReadMultiple = spark.read.format("csv").option("header", "true").load("/sample/*.csv")
display(ReadMultiple)

希望这可以帮助。