apache-spark - 在 Pyspark 中使用 maxBytesPerTrigger 的正确方法是什么?
问题描述
我正在使用 Spark readStream 并像这样设置选项 maxBytesPerTrigger:temp_data = spark.readStream.format("delta").option("maxBytesPerTrigger",1000).load(raw_data_delta_table)
但是我的整个文件是单批加载的。我想将它加载到多个批次中。我错过了什么?是的,如果我使用 maxFilesPerTrigger,那么它工作正常。但是 maxBytesPerTrigger 不起作用。谢谢
解决方案
Spark 需要读取整个文件,而不是文件的片段。因此基于如果软最大值通常小于文件大小,那么它将摄取整个文件。
请参阅下面链接中的“限制输入速率”部分。
推荐阅读
- python - 如何使用我的 LSTM 输出作为 keras 中另一个 LSTM 的输入?
- c# - 在 C# 中使用 SQL
- python - 绘制来自调查的分组信息
- c++ - 如何在 ncurses c++ 中从屏幕获取文本?
- javascript - 调用 setState 后的事件给了我以前的状态值
- html - EJS 文件未按预期呈现
- javascript - window.onhashchange 会在单页应用程序上检测除导航以外的任何内容吗?
- java - Spring会话在会话超时后创建新会话而不进行身份验证
- python - 用于字符串表达式的递归括号解析器
- sql - 使用 Convert() 将 nvarchar 值“3.5”转换为数据类型 int 时转换失败