python - Databricks CSV 多次读取
问题描述
假设我有以下包含以下内容的 csv 文件
文件_20190901.csv
col1 col2 col3
data 20190901 A
文件_20190902.csv
col1 col2 col3
data 20190901 B
data 20190902 A
所以几天后,文件名 file_20190903.csv 会有
col1 col2 col3
data 20190902 B
data 20190903 A
所以现在的任务是将这些csv文件合并到数据框中,包括col2上的所有记录20190901到20190903,并使用最新的行数据。所以希望结果是
col1 col2 col3
data 20190901 B
data 20190902 B
data 20190903 A
如何使用 Python 在 Databricks 中执行此操作?
解决方案
从示例文件中,col2 具有相同的值,但 col3 具有不同的值。因此,您不能合并这两个文件。
文件_20190901.csv
col1 col2 col3
数据 20190901 A
文件_20190902.csv
col1 col2 col3
数据 20190901 B
如何读取多个 csv 文件:
将所有 csv 文件复制到 dbfs,如下所示:
然后创建一个python notebook,运行如下:
ReadMultiple = spark.read.format("csv").option("header", "true").load("/sample/*.csv")
display(ReadMultiple)
希望这可以帮助。
推荐阅读
- gridview - RowDataBound 事件 - 引用另一个 GridView 数据?
- python - IndexError:元组索引超出范围(LSTM)
- excel - 如何根据其他单元格值要求 VBA 转到该列
- facebook - FB Graph API 不会在帖子的评论、喜欢、反应中返回用户对象
- spring-cloud - 引起:java.lang.NoClassDefFoundError: com/netflix/discovery/shared/resolver/EurekaEndpoint
- javascript - 在 Django 中,如何使用 Java Script 修改动态表单中的字段名称
- sql-server - 密钥存储提供程序不能设置多次错误(始终使用 JDBC 加密)
- terraform - Terraform中基于json响应的嵌套循环,用于多个资源目标
- python - 如果路径成本相同,是否可以使用统一成本搜索 (UCS) 返回多个路径?
- python - 如何检查字符串是否仅包含有效数量的空格