首页 > 解决方案 > 难以发现数据异常

问题描述

我正在做一个分析统计项目。我的数据是每天数千笔交易,按日常事务,我想在某些场景下标记交易。

问题来自这样一个事实,即我通过它们对数据进行分组的 5 个参数。

我要标记的场景总是来自将当前的每日交易与最近的大型组进行比较。一种情况可能是价格是该集团平均价格的 3 倍,或者本月的交易数量翻了一番。

例如:

我今天有 1000 笔交易。我将它们分组的 5 个标志是:

1.时间(日/夜)

2.货币(美元/欧元)

3.性别

4.是否支付全价

5.国家

在该示例中,5 个标志中有 4 个是二进制的,但国家/地区列表有更多选项。

实际上,就我而言,我更有可能拥有的组数应该接近 1000 个。

因此,如果我有 700 个组,我想与之进行比较。我需要查询每组至少 500 个事务的数据。

我是否应该针对 700 个案例确定查询中需要的数据?

其中 (a=1 and b=0 ... e=10) or (a=0 and b=0 ... e=30) or .... or (a=0 and b=1 ... e =30) => 700 例。

我是否应该查询很多我不需要的数据,并以另一种方式将我每天的 1000 笔交易与他们的组相匹配?

还有其他方法可以做到吗?

干杯

标签: phpmysqldatabasealgorithmstatistics

解决方案


推荐阅读