首页 > 解决方案 > 具有未知但有限元素的源是否被视为 BoundSource 或 UnboudSource?

问题描述

具有未知但有限元素的源是否被视为 BoundSource 或 UnboudSource?

如果我能够同时实现 BoundSource 和 UnboudSource,那么哪个“更好”?“更好”是指哪个会提供更多选择或更好的性能?

我要爬一个有分页的网站,所以一开始,我不知道我会爬多少页,但是,我确信它不是无限的。

标签: apache-beamapache-beam-io

解决方案


BoundedSource 将允许您将作业作为批处理作业运行,这可能会更快。在这里使用 UnboundedSource 的唯一原因是,如果您想在读入数据时对其进行处理,而不是在读取完所有数据后立即处理所有数据。


推荐阅读