spotify-scio - 使用 SCIO 将 pubsub 数据导出到对象存储
问题描述
我正在尝试将 Cloud Pub/Sub 流导出到 Cloud Storage,如 Spotify 的这篇文章所述可靠地将 Cloud Pub/Sub 流导出到 Cloud Storage或 Google 的这篇文章使用 Cloud Pub/Sub、Cloud 简单备份和重播流事件存储和云数据流
PubSub 创建有界PCollection
(或SCollection
在 SCIO 中)但saveastextfile
需要BoundedCollection
.
有什么办法可以克服这个吗?
解决方案
新的动态 IO模块应该支持将无限集合保存到文件。
但是请注意,该 Spotify 文章中的方法不使用 Dataflow,因为它有很多出于 SLA/bucketing/可靠性原因的自定义逻辑。所以YMMV。
推荐阅读
- git - GitLab CI - 添加标签时避免构建
- java - Java Swing - 无法使用 AWT 图形绘制圆
- javascript - 我可以根据一天中的时间对 HTML 中的内容可见性进行计时吗?
- aws-lambda - 无法使用 CLI 设置 AWS cognito 触发器
- c++ - 由于分析部分之外的代码,使用 clock_gettime() 进行不合理的时间测量
- java - 无法使用 Docker compose 将 SpringBoot 连接到 MySql
- node.js - 尝试在新单元上运行时 npm start 抛出错误
- javascript - 使用数组中的值在 EJS 模板中设置 HTML 属性
- c++ - 多线程双缓冲区
- c# - 使用 C# 求解方程(Windows 窗体)