首页 > 解决方案 > 如何分析用户的服务使用时间?

问题描述

我正在努力用 PySpark(pandas)、ElasticSearch 制作逻辑(保存汇总的结果以可视化)。(我是新手)

如果日志以这种方式出现,

时间戳 ID service_id
15:24:33 一个 X
15:25:34 一个 是的
15:27:22 一个 X
17:33:28 一个 Z
17:35:29 一个 Z

用户“A”使用了我的服务 X、Y、Z(暂时不关心该服务)。我如何测量用户“A”的实际时间使用情况(对于现在的所有服务;无论 A 使用什么服务)?

实际时间:“A”在 15:24~15:27 左右发送了 2 分钟日志,在 17:33~17:35 左右发送了 2 分钟。总计-> 4 分钟。

我必须判断 'A' 在 15:27 ~ 17:33 之间没有使用我的服务。

我不是在问你整个算法,而只是在 python、pandas 或 pyspark 中针对这种情况的有用方法或技能等提示(需要计算时间差的总和)

因为日志每天进来 30m~40m,所以我也必须关心性能。

这有点复杂,我知道。很难解释。谢谢你。

标签: pythonpandasapache-sparkelasticsearchpyspark

解决方案


推荐阅读