首页 > 解决方案 > 我怎么知道镶木地板文件块的大小?

问题描述

我在 pyspark 中将文件输出为镶木地板。我怎样才能知道镶木地板文件块的大小?

标签: apache-sparkpysparkparquet

解决方案


您应该使用较小的块大小编写镶木地板文件。默认为每块 128Mb,但可以通过在 writer 中设置 parquet.block.size 配置来配置。ParquetOutputFormat 的来源在这里,如果您想深入了解细节。块大小是您可以从逻辑可读的 parquet 文件中读取的最小数据量(因为 parquet 是柱状的,您不能只按行或类似这样的微不足道的东西进行拆分),因此您不能有更多的读取线程比输入块。


推荐阅读