首页 > 解决方案 > 处理时间序列数据库中一列的高基数

问题描述

我有一个非常高的基数时间序列数据库。假设我的时间序列数据库中有 4 列(A、B、C 和 D),它们的基数分别为(10、100、50、10,000,000)。所以,我总共有一个 (10*100*50*10,000,000) 基数的数据库。我想知道以下问题:

  1. 我应该使用哪个警报系统来监控高基数(比如最后一小时数据中的 500 万基数)数据库。
  2. 如果时间序列数据库中的 1 列具有非常高的基数,最好的处理方法是什么?

标签: time-seriesmonitorprometheus

解决方案


我假设您想使用某种监控系统,在某些事件中系统会被触发以对某个服务发出警报,对吗?像异常检测系统。

所以,我问你的问题是,你是在寻找一个监控工具,只是为了报告功能,还是使用时间序列进行机器学习?

我会回答这个问题,就好像它是面向机器学习的一样。如果这不是您的意图,我很抱歉:

==> 如果您需要将 usem 作为虚拟变量,则在 ML 中具有高基数的特征通常通过 bining 处理。换句话说,对于特征的每一层,都会创建一个新的二进制列。(例如:http 代码:200、200、201、404、409、500 ==> 2xx、3xx、4xx)。

==> 但是,如果您使用基于树的算法来处理高基数,则不需要虚拟变量来处理德基数。

可以使用更多方法,但我需要知道这是否是您正在寻找的,以便我加深答案。


推荐阅读