首页 > 解决方案 > com.amazonaws.services.glue.writeDynamicFrame 的 SparkQL 选项是什么?

问题描述

在本文档中:https ://docs.aws.amazon.com/glue/latest/dg/aws-glue-programming-etl-format.html#aws-glue-programming-etl-format-parquet

它提到:“底层 SparkSQL 代码接受的任何选项都可以通过 connection_options 映射参数传递给它。”

但是,我怎样才能找出这些选项是什么?Glue 代码和 SparkQL 代码之间没有明确的映射关系。

(具体来说,我想弄清楚如何控制生成的拼花文件的大小)

标签: apache-spark-sqlaws-glue

解决方案


各种数据源的 SparkSQL 选项可以在DataFrameWriter文档中查找(在Scalapyspark文档中)。写入的数据源parquet似乎只带compression参数。对于读取数据时的 SparkSQL 选项,请查看DataFrameReader类。

要控制输出文件的大小,您应该使用并行性——就像@Yuri Bondaruk 评论的那样——使用例如coalesc函数。


推荐阅读