首页 > 解决方案 > 当数据具有不均匀的生成率时,如何在 cassandra 中对时间序列数据进行建模?

问题描述

我计划将数据从我现有的数据库 (Postgres) 迁移到 Cassandra。以下是该系统的简要概述:

我正在尝试使用几种不同的方法对这些数据进行建模。

我尝试使用每周存储桶而不是每月存储桶和分页来改进其他参数。但这是我无法解决的问题分区大小不均匀,因为来自 3 个不同来源的数据速率不同。

如何在这样的数据模型中保持分区大小(几乎)一致?欢迎提出想法。

标签: cassandratime-seriesdata-modelingcassandra-3.0

解决方案


这是一个经典问题,没有简单的解决方案可以使分区大小一致。如果您可以预测每个用户的摄取率,则可能您可以拥有不同的用户桶,例如高、中、低摄取用户。

根据类型,时间段会有所不同。对于摄取量高的用户,partition 意味着一天,对于摄取量低的用户,partition 意味着一个月。

为了加快对高摄取用户的月份查询,您可以运行 30 天的并行查询,看看它是否有助于优化您的查询时间。


推荐阅读