首页 > 解决方案 > Spark:导入异构多个csv

问题描述

我正在尝试使用 pyspark 处理一组 CSV。

我正在使用 Spark 2.4.4 开发 AWS EMR emr-5.27.0

我尝试加载文件:

    src_df = spark.read.csv("s3://my-bucket/extract/2019*/*csv.gz", header=True, inferSchema=True)

问题是列可能因文件而异。因此,根据行,我的数据有偏差。

我认为 secifying "header" 选项可以解决这个问题,但它似乎只使用加载的第一个文件的模式。

任何想法?

提前致谢。

标签: csvapache-sparkpyspark

解决方案


推荐阅读