java - CSV 文件中的数据挖掘和模式识别 (Python ML)
问题描述
我是 ML 和数据挖掘领域的新手,我正在寻找帮助和指导来发现我的日志文件中的异常行为。
假设我有一个 cvs 文件,它记录用户会话的开始时间和结束时间以及他们处理过的策略编号,类似于下面。
开始日期、用户名、结束日期、Policy_numbers 2018-01-02 10:01、user1、2018-01-02
10:10、PO-123
2018-01-02 10:05、user2、2018-01-02 10:20、 PO-456
2018-01-02 10:11,用户 1,2018-01-02 10:45,PO-789 | PO-999(| 是这里的分隔符)
是否有任何 Python 或 java 库/模块/代码或开源应用程序来识别模式,例如:大多数用户在上午 10 点到下午 5 点期间登录,每月平均会话数,平均会话长度和……, 我希望应用程序能够识别各种模式,并以列表或方式向我提出建议,以便我可以选择那些对业务很重要的模式。
(如果我识别出模式,那么我可以通过一些查询找到答案,而无需模式识别——这很容易做到)
那么有没有办法通过这些公认的模式来训练系统以发现异常行为,例如:找到在下午 5:00 之后登录的用户,发现会话花费的时间比平均时间长,并且......
感谢您的任何想法。
解决方案
推荐阅读
- f# - 离散场的笛卡尔积上的 FsCheck 生成器
- jquery - 为什么 Fancybox 不能与 SpriteSpin 一起使用
- ember.js - 如何使用 ember-highcharts 动态更新系列数据
- wordpress - 有什么方法可以跟踪联系表单提交的速度/效率吗?
- php - 将数组的每个值组合到php中的单个数组
- android-studio - 如何在“主”页面上的 RecyclerView“列表”上添加 ImageView?
- java - 从当前 COMLateBindingObject 获取 ProcessID
- groovy - 如何用 Groovy 将数字分成几部分?
- php - Google App Engine PHP 7.2 在本地主机上使用 app.yaml?
- javascript - 创建循环以在 React 中动态导入文件