csv - Spark:导入异构多个csv
问题描述
我正在尝试使用 pyspark 处理一组 CSV。
我正在使用 Spark 2.4.4 开发 AWS EMR emr-5.27.0
我尝试加载文件:
src_df = spark.read.csv("s3://my-bucket/extract/2019*/*csv.gz", header=True, inferSchema=True)
问题是列可能因文件而异。因此,根据行,我的数据有偏差。
我认为 secifying "header" 选项可以解决这个问题,但它似乎只使用加载的第一个文件的模式。
任何想法?
提前致谢。
解决方案
推荐阅读
- python - 在终端中运行 Python 程序时出错
- arduino - 将模拟值映射到条件内的 pwm 信号
- c - 带测试和设置的有界等待互斥中的无限循环
- c# - 为什么我不能访问从 POST 请求中以编程方式添加的静态文件?
- encoding - 用不同的编码覆盖后无法打开 .docx 文件
- c# - 通知所有客户有关更改
- microservices - 如何在 Git proto 存储库中发布对共享 .proto 文件的更改?
- apache-spark - 通过检查另一行的条件来更新特定行中的值,pyspark
- python - Pandas Dataframes - 从另一个数据帧的字符串列中的一个数据帧中搜索一个整数
- firefox-addon - 从外部页面上的活动选项卡获取 url