python - Python 中的 Panda SQL 分析大型数据集
问题描述
我有一个熊猫数据框,其中包含以下结构:
用户 ID EmailOpenRank
用户 1
1
用户 1
2
用户 1
3
用户 2 1 用户 2 2用户 3 1
用户 3 2
用户 3 4
用户 3 5
......
“EmailOpenRank”字段捕获顺序事件 (DF)。如果数字按顺序出现,则表示 (1,2, 3) 用户按顺序打开电子邮件的次数。我在描述中提供了示例。问题是在 1000 万用户中,什么是合适的 SQL 查询(Pandasql),这样我可以告诉 900 万人连续打开 3 封电子邮件,100 万人连续打开 4 封电子邮件。
使用 pandasql,我想从“EmailOpenRank”列中计算出打开 2 个连续电子邮件、3 个连续电子邮件、4 个连续电子邮件等的用户总数。例如,根据排名,User1 连续打开了 3 封邮件,User2 连续打开了 2 封邮件,User3 连续打开了 4 封邮件。
我怎样才能开始呢?
解决方案
推荐阅读
- python - 如何在 Barchart Matplotlib 上方添加标签值?
- kubernetes - Prometheus:监控所有服务而不为每个服务创建ServiceMonitor?
- java - Android Studio 未启动。树莓派
- ios - 标识符为“com.companyName.xyz.NotificationServiceExtension”的应用 ID 不可用
- math - 通过步行步骤方法计算分数幂似乎正确吗?
- youtube - Android 11 YouTubeAndroidPlayerApi 无法正常工作
- javascript - 如果div在某个位置,触发javascript函数
- python - 在python列表的每个索引处插入整数
- javascript - 如何在反应中访问 res.write() 的每个块?
- sql - SQL 计算日期范围内的连续天数