java - 使用自定义 Unix 组编写 Spark 数据集
问题描述
在 apache spark 中,我有一个正在写入磁盘的数据集:
var ds = Seq(1, 2, 3).toDS();
ds.write.parquet("/tmp/01/01");
正如预期的那样,这会以 parquet 格式将记录写入磁盘:
vaxaci$ ls -ltr /tmp/01/01/
total 24
drwxr----- 1 vaxaci hadoop 430 Oct 19 14:12 part-00000-ba320358-7ee3-46dc-b90f-3b9c94fa6503-c000.snappy.parquet
drwxr----- 1 vaxaci hadoop 430 Oct 19 14:12 part-00001-ba320358-7ee3-46dc-b90f-3b9c94fa6503-c000.snappy.parquet
drwxr----- 1 vaxaci hadoop 430 Oct 19 14:12 part-00002-ba320358-7ee3-46dc-b90f-3b9c94fa6503-c000.snappy.parquet
drwxr----- 1 vaxaci hadoop 0 Oct 19 14:12 _SUCCESS
但问题出在编写它的 UNIX 组上。目前它正在使用 group name 编写hadoop
。
有什么方法可以让我以编程方式(java
最好)将这个组修改为别的东西,比如说friends
?
解决方案
推荐阅读
- .net - 将 MERGE 语句的更新列审计为不同表中的行
- python-3.x - 随机选择文件中的两个位置并交换单词
- laravel - 在 Laravel 中创建后返回带有关系的 Modal
- python - 使用 Tensorflow 张量实现布尔索引并为这些索引分配一个新值
- sql-server - 如何在sql server中执行动态创建的查询
- php - 在 websdrver 上创建用于打印的高质量图像 (CMYK)
- python - 为 tensorflow 安装 protobuf 时 conda 失败
- jquery - jquery:如何使用 jquery 函数为不同的下拉菜单存储数据
- regex - 从 SNP rsid 名称中删除不必要的信息
- python - Python 3 从页面中提取 html 信息