首页 > 解决方案 > 在 Pyspark 中使用 maxBytesPerTrigger 的正确方法是什么?

问题描述

我正在使用 Spark readStream 并像这样设置选项 maxBytesPerTrigger:temp_data = spark.readStream.format("delta").option("maxBytesPerTrigger",1000).load(raw_data_delta_table) 但是我的整个文件是单批加载的。我想将它加载到多个批次中。我错过了什么?是的,如果我使用 maxFilesPerTrigger,那么它工作正常。但是 maxBytesPerTrigger 不起作用。谢谢

标签: apache-sparkpysparkdatabricksspark-structured-streaming

解决方案


Spark 需要读取整个文件,而不是文件的片段。因此基于如果软最大值通常小于文件大小,那么它将摄取整个文件。

请参阅下面链接中的“限制输入速率”部分。

https://docs.databricks.com/delta/delta-streaming.html


推荐阅读