首页 > 解决方案 > 如何使用python在列中找到常见的序列模式?

问题描述

我有一个大型数据集,如下所示:

时间戳事件
2020-03-04 01:20:39 A
2020-03-04 01:21:22 B
2020-03-04 01:21:55 C
2020-03-04 01:22:31 A
2020-03- 04 01:23:19 B 2020-03-04 01:24:39
D。
. . .
. . . .
2020-03-10 11:34:54 C
2020-03-10 11:35:22 A
2020-03-04 11:35:55 B
2020-03-04 11:36:01 D

我想找出事件发生中是否存在一些模式。例如,在第 1 行的事件 A 之后,B 在第 2 行发生。{A,B} 是在第 4 行和第 5 行重复的模式。我想知道是否还有更多这样的模式及其频率。我对最大长度为 4 的序列感兴趣(例如:C、A、B、D)。

如果您可以向我建议任何在 python 中的算法/实现来做到这一点,那将非常有帮助。

谢谢!

标签: pythonpandasmachine-learningsequencedata-analysis

解决方案


你试过 PM4Py python 库吗?您需要按照此处的说明将数据转换为事件日志,它将自动提取序列。


推荐阅读