首页 > 解决方案 > Python 中的 Panda SQL 分析大型数据集

问题描述

我有一个熊猫数据框,其中包含以下结构:

用户 ID EmailOpenRank
用户 1
1 用户 1 2 用户 1
3 用户 2 1 用户 2 2用户 3 1 用户 3 2 用户 3 4 用户 3 5 ......







“EmailOpenRank”字段捕获顺序事件 (DF)。如果数字按顺序出现,则表示 (1,2, 3) 用户按顺序打开电子邮件的次数。我在描述中提供了示例。问题是在 1000 万用户中,什么是合适的 SQL 查询(Pandasql),这样我可以告诉 900 万人连续打开 3 封电子邮件,100 万人连续打开 4 封电子邮件。

使用 pandasql,我想从“EmailOpenRank”列中计算出打开 2 个连续电子邮件、3 个连续电子邮件、4 个连续电子邮件等的用户总数。例如,根据排名,User1 连续打开了 3 封邮件,User2 连续打开了 2 封邮件,User3 连续打开了 4 封邮件。

我怎样才能开始呢?

标签: pythonpandaspandasql

解决方案


推荐阅读