首页 > 解决方案 > 如何使用循环任务实现数据管道?

问题描述

我必须为我尝试创建的应用程序设置数据管道,但我不知道该怎么做。

我在数据库中有 2 个实体:A 和 B,每个实体 B 都属于一个实体 A。

每分钟,我都会获取许多 B 实体,但缺少一个字段(在每个 B 实体上)。因此,在保存 B 实体之前,我需要在每个实体上计算该字段。给定一个 B 实体和相应的 A 实体,我需要保存属于 A 实体的最后 20 个 B 实体(在数据库中,因此没有丢失的字段)来计算丢失的字段。

每分钟的伪代码是:

数量级:每分钟 20k A 实体、3000 万 B 实体保存和 1k 新 B 实体(这 1k B 实体属于大约 300 个 A 实体)

我认为我可以实现一个缓存系统,为每个 A 实体存储最后 20 个保存的 B 实体,而不是每分钟查询数据库以获取为每个 A 实体保存的最后 20 个 B 实体。

所以我的第一个想法是:

由于这是我第一次必须设置数据管道,我注意到我的第一个想法是好的,我有多个问题:

提前感谢您的反馈:)

标签: databaseamazon-web-servicesaws-lambdaclouddata-pipeline

解决方案


我认为通过创建来查询具有限制和顺序的 RDS 会更容易,并且比使用 lambda 进行缓存更容易。如果负载很大,您可以使用只读副本来处理读取。

关于 Lambda 的 cron 工作,是的,为什么不呢。确保你知道这个 lambda 平均运行多长时间。如果您有专门的容器设置,可能会更便宜、更高效。

不确定所有这些是否真的需要在数据管道中,因为这是一个相当简单的设置。


推荐阅读