python - 如何分析用户的服务使用时间?
问题描述
我正在努力用 PySpark(pandas)、ElasticSearch 制作逻辑(保存汇总的结果以可视化)。(我是新手)
如果日志以这种方式出现,
时间戳 | ID | service_id |
---|---|---|
15:24:33 | 一个 | X |
15:25:34 | 一个 | 是的 |
15:27:22 | 一个 | X |
17:33:28 | 一个 | Z |
17:35:29 | 一个 | Z |
用户“A”使用了我的服务 X、Y、Z(暂时不关心该服务)。我如何测量用户“A”的实际时间使用情况(对于现在的所有服务;无论 A 使用什么服务)?
实际时间:“A”在 15:24~15:27 左右发送了 2 分钟日志,在 17:33~17:35 左右发送了 2 分钟。总计-> 4 分钟。
我必须判断 'A' 在 15:27 ~ 17:33 之间没有使用我的服务。
我不是在问你整个算法,而只是在 python、pandas 或 pyspark 中针对这种情况的有用方法或技能等提示(需要计算时间差的总和)
因为日志每天进来 30m~40m,所以我也必须关心性能。
这有点复杂,我知道。很难解释。谢谢你。
解决方案
推荐阅读
- macos - NSDateFormatter 从多个区域解析 TimeZone
- django - Django 测试因外键格式错误而无法创建表而无法运行
- linux-kernel - 用户空间代码未调用帧缓冲区写入 cb
- c# - 从 Microsoft.Azure.DocumentDb 迁移到 Microsoft.Azure.Cosmos 以进行数据访问。并非所有选项都可用
- java - Scanner.nextLine() 仅在控制台中抛出 NoLineFound
- javascript - 使用正则表达式匹配两个特定字符串之间的版本号
- typescript - 如何使用类型化参数构建查询?
- python-3.7 - 尝试使用 xlrd 查找行的最小值时如何排除零作为最小值
- kotlin - Kotlin 中 lambda 表达式中的默认参数
- javascript - 如何在循环中安全地调用基于 Promise 的 AngularJS 服务?