apache-beam - 具有未知但有限元素的源是否被视为 BoundSource 或 UnboudSource?
问题描述
具有未知但有限元素的源是否被视为 BoundSource 或 UnboudSource?
如果我能够同时实现 BoundSource 和 UnboudSource,那么哪个“更好”?“更好”是指哪个会提供更多选择或更好的性能?
我要爬一个有分页的网站,所以一开始,我不知道我会爬多少页,但是,我确信它不是无限的。
解决方案
BoundedSource 将允许您将作业作为批处理作业运行,这可能会更快。在这里使用 UnboundedSource 的唯一原因是,如果您想在读入数据时对其进行处理,而不是在读取完所有数据后立即处理所有数据。
推荐阅读
- python - Python - 各种“原点”地理坐标和各种“目的地”地理坐标之间的距离
- spring - RemoteFileTemplate - 按日期拉取 sftp 文件
- python - 如何在scrapy-spider中使用全局定义的变量?
- java - 无论输入序列长度如何,都生成字母数字序列
- python - 在python中的每个元素后添加逗号
- android - 必需类型:UnifiedNativeAd 但提供:play-services-ads:20.1.0 中的 NativeAd
- dolphindb - 更改 license.lic 后是否应该重新启动控制器节点和数据节点
- installation - 找不到 Processmaker 4 安装 404
- javascript - 如何在第三次点击时返回我的原始列表?
- python - 为什么用户在多对多关系中被自动添加到喜欢字段