首页 > 解决方案 > Pyspark - 选择、分组和分析日志

问题描述

这是我的桌子

 User    | eventid | timestamp
 ----------------------------
 root    | 100004 | 2020-07-02 12:01:40
 test    | 100001 | 2020-07-02 12:21:23
 test    | 100002 | 2020-07-02 13:22:56
 test    | 100003 | 2020-07-02 13:27:07

使用python,读取事件日志表,首先将日志分组为用户,然后如果分组日志有3个eventid(100001、100002和100003)并且事件是否按顺序发生(第一个:100001,第二个:100002和第三个:100003 ) 为此相关事件创建日志。

日志是:

"Correlation id: Cor101 user: User eventid: 100001,100002,100003 time : 2020-07-02 13:28:00

标签: pythonpandaspyspark

解决方案


推荐阅读