首页 > 解决方案 > 如何只用火花写标题

问题描述

我的情况:

我有一组源,我必须通过数据层传递它们,假设我有 A、B 和 C 层。有时,任何源在 A 层中没有数据,只有源的标题,在我的情况下,A 中的所有数据都是 avro。然后我必须将它从 A 传递到 B,在我的情况下,B 层可以是 csv。最近,B层的需求发生了变化,现在我也有parquet文件了。我需要这些文件,因为 C 层需要读取一些东西,至少是标题。

我的问题:

这是我必须将唯一的头 avro 文件解析为镶木地板文件的时候。是否有任何使用 Spark/scala 的解决方案只能写入 avro、parquet 等格式文件的标题?

我有一个只能将标题解析为 csv 的代码,只列出列并将其写为 csv 或 plainText 但是当我尝试用 avro 或 parquet 编写时,它只会写入_SUCCESSspark 的标志。我使用了我发现的不同的保存模式和属性,并且 spark 接受。

更多信息,我使用 spark 2.3.1 版本,scala 2.11.11

标签: scalaamazon-web-servicesapache-sparkamazon-s3

解决方案


推荐阅读