首页 > 解决方案 > 使用自定义 Unix 组编写 Spark 数据集

问题描述

在 apache spark 中,我有一个正在写入磁盘的数据集:

var ds = Seq(1, 2, 3).toDS();

ds.write.parquet("/tmp/01/01");

正如预期的那样,这会以 parquet 格式将记录写入磁盘:

vaxaci$ ls -ltr /tmp/01/01/
total 24
drwxr-----  1 vaxaci  hadoop  430 Oct 19 14:12 part-00000-ba320358-7ee3-46dc-b90f-3b9c94fa6503-c000.snappy.parquet
drwxr-----  1 vaxaci  hadoop  430 Oct 19 14:12 part-00001-ba320358-7ee3-46dc-b90f-3b9c94fa6503-c000.snappy.parquet
drwxr-----  1 vaxaci  hadoop  430 Oct 19 14:12 part-00002-ba320358-7ee3-46dc-b90f-3b9c94fa6503-c000.snappy.parquet
drwxr-----  1 vaxaci  hadoop    0 Oct 19 14:12 _SUCCESS

但问题出在编写它的 UNIX 组上。目前它正在使用 group name 编写hadoop

有什么方法可以让我以编程方式(java最好)将这个组修改为别的东西,比如说friends

标签: javaapache-sparkunixhadoopparquet

解决方案


推荐阅读