首页 > 解决方案 > CSV 文件中的数据挖掘和模式识别 (Python ML)

问题描述

我是 ML 和数据挖掘领域的新手,我正在寻找帮助和指导来发现我的日志文件中的异常行为。

假设我有一个 cvs 文件,它记录用户会话的开始时间和结束时间以及他们处理过的策略编号,类似于下面。

开始日期、用户名、结束日期、Policy_numbers 2018-01-02 10:01、user1、2018-01-02
10:10、PO-123
2018-01-02 10:05、user2、2018-01-02 10:20、 PO-456
2018-01-02 10:11,用户 1,2018-01-02 10:45,PO-789 | PO-999(| 是这里的分隔符)

是否有任何 Python 或 java 库/模块/代码或开源应用程序来识别模式,例如:大多数用户在上午 10 点到下午 5 点期间登录,每月平均会话数,平均会话长度和……, 我希望应用程序能够识别各种模式,并以列表或方式向我提出建议,以便我可以选择那些对业务很重要的模式。

(如果我识别出模式,那么我可以通过一些查询找到答案,而无需模式识别——这很容易做到)

那么有没有办法通过这些公认的模式来训练系统以发现异常行为,例如:找到在下午 5:00 之后登录的用户,发现会话花费的时间比平均时间长,并且......

感谢您的任何想法。

标签: javapythonmininganomaly-detection

解决方案


推荐阅读