scala - 如何只用火花写标题
问题描述
我的情况:
我有一组源,我必须通过数据层传递它们,假设我有 A、B 和 C 层。有时,任何源在 A 层中没有数据,只有源的标题,在我的情况下,A 中的所有数据都是 avro。然后我必须将它从 A 传递到 B,在我的情况下,B 层可以是 csv。最近,B层的需求发生了变化,现在我也有parquet文件了。我需要这些文件,因为 C 层需要读取一些东西,至少是标题。
我的问题:
这是我必须将唯一的头 avro 文件解析为镶木地板文件的时候。是否有任何使用 Spark/scala 的解决方案只能写入 avro、parquet 等格式文件的标题?
我有一个只能将标题解析为 csv 的代码,只列出列并将其写为 csv 或 plainText 但是当我尝试用 avro 或 parquet 编写时,它只会写入_SUCCESS
spark 的标志。我使用了我发现的不同的保存模式和属性,并且 spark 接受。
更多信息,我使用 spark 2.3.1 版本,scala 2.11.11
解决方案
推荐阅读
- r - 填写data.table中缺失的日期
- python - 语音识别使用python检测特定单词
- django - Django AWS-S3 无法启动新线程
- python - kivy:TypeError:“NoneType”对象不可下标
- amazon-web-services - AWS 中的负载均衡器和目标组有什么区别?
- c# - System.ArgumentNullException: '值不能为空。Arg_ParamName_Name'
- python - Tensorflow 没有为任何变量提供梯度
- .net-core - MassTransit 和 Azure 服务总线:所有已创建订阅的 EnableDeadLetteringOnMessageExpiration
- excel - 使用 VBA 将 Excel 图表粘贴到 PPT 时嵌入单个工作表
- .htaccess - 如何在生成的 url 中订购动态参数的应用?