google-cloud-platform - 我们可以在 ParDo 函数中编写 ParDo 函数吗?
问题描述
例如,我有一个 URL 列表作为字符串存储在 Datastore 中。因此,我使用了 DatastoreIO 函数并将它们读入 PCollection。在 ParDo 的 DoFn 中,对于每个 URL(这是文件的 GCP 云存储位置),我必须读取该位置中存在的文件并进行进一步的转换。
所以我想知道我是否可以在 ParDo 函数中为 PCollections 编写 ParDo。每个文件转换的并行执行类型并发送 KV (key, PCollection) 作为第一个 ParDo 函数的输出。
抱歉,如果我没有清楚地展示我的场景。我是 Apache Beam 和 Google Dataflow 的新手
解决方案
你想要的是TextIO#readAll()。
PCollection<String> urls = pipeline.apply(DatastoreIO.read(...))
PCollection<String> lines = urls.apply(TextIO.readAll())
推荐阅读
- java - 在 3D 世界中计算距相机的各个距离,Java
- javascript - 位置粘性底部不起作用,但顶部它可以
- python - 如何在数据帧上隔离具有异常值的时期
- algorithm - 在 O(1) 空间复杂度中反转队列
- mysql - 有没有办法通过“WITH”语句获得输出?
- php - preg_match 的 $matches 不返回任何匹配项
- angular - 为什么我的 routerLink 没有显示我的 CalendarComponent
- javascript - 如何将自定义道具传递给单个 SPA 子 React 应用程序?
- javascript - 反应表单验证
- session - TYPO3 / Extbase - 切换到另一个 fe_user - 最后回到原始用户