python - Pyspark - 选择、分组和分析日志
问题描述
这是我的桌子
User | eventid | timestamp
----------------------------
root | 100004 | 2020-07-02 12:01:40
test | 100001 | 2020-07-02 12:21:23
test | 100002 | 2020-07-02 13:22:56
test | 100003 | 2020-07-02 13:27:07
使用python,读取事件日志表,首先将日志分组为用户,然后如果分组日志有3个eventid(100001、100002和100003)并且事件是否按顺序发生(第一个:100001,第二个:100002和第三个:100003 ) 为此相关事件创建日志。
日志是:
"Correlation id: Cor101 user: User eventid: 100001,100002,100003 time : 2020-07-02 13:28:00
解决方案
推荐阅读
- java - Java 检查输入为整数或空以允许默认值
- octave - 八度 - 仅圆一列
- c# - 在 c# 中将 dd/MM/yyyy hh:mm:ss 转换为 dd-MMM-yyyy hh:mm:ss 给出错误:字符串未被识别为有效日期时间
- java - 从 MainActivity 调用位于 Service 中的函数
- python - PyQt5:继承 QTextCodec
- ios - 如何在uiview中添加波浪边框?
- windows - 变量不会在循环的第一次迭代中更新。CMD 批处理
- c# - 如何在 C# 中登录到控制台
- wso2esb - 引起:org.postgresql.util.PSQLException:错误:列“imagesync__c”的类型为布尔值,但表达式的类型为字符变化
- c - 由于长路径导致的 fopen 错误不存在此类文件