首页 > 解决方案 > Scala :: 读取具有不同模式信息的多个镶木地板文件

问题描述

我有一个要求,我必须读取 HDFS 中不同目录中的镶木地板文件。目录按客户端细分,每个客户端都有不同的模式(命名约定)。

我正在使用 scala 将这些文件读入数据框。有没有一种方法可以通过使用客户端名称作为输入参数来动态更改输入字段名称。我有近 30 个客户可供阅读。

提前致谢

标签: scalaapache-sparkhadoophdfsparquet

解决方案


StructType 您可以首先使用类https://spark.apache.org/docs/latest/sql-programming-guide.html#programmatically-specifying-the-schema以编程方式构造模式,然后执行类似的操作

spark.read.schema(myGeneratedSchema).parquet(path)

推荐阅读