python - python - 当多列的条件在python中匹配时添加一行?
问题描述
我正在尝试在数据框中添加一行。条件是当用户再次返回应用程序(300 秒后)时,我需要添加一行。下面是我的代码。它工作正常,但需要大量执行时间,因为真实的数据帧有 1000 万行。
for i in range(1,len(df)):
if df['user_id'][i]==df['user_id'][i-1] and (df['start_time'][i]-df['start_time'][i-1]).seconds>300:
df.loc[len(df)]=[df['user_id'][i],df['start_time'][i],'psuedo_App_start_2']
输入:
user_id start_time event
100 03/04/19 6:11 psuedo_App_start
100 03/04/19 6:11 notification_receive
100 03/04/19 8:56 notification_dismiss
10 03/04/19 22:05 psuedo_App_start
10 03/04/19 22:05 subcategory_click
10 03/04/19 22:06 subcategory_click
输出应如下所示:
user_id start_time event
100 03/04/19 6:11 psuedo_App_start
100 03/04/19 6:11 notification_receive
100 03/04/19 8:56 psuedo_App_start_2
100 03/04/19 8:56 notification_dismiss
10 03/04/19 22:05 psuedo_App_start
10 03/04/19 22:05 subcategory_click
10 03/04/19 22:06 subcategory_click
从输出中可以看出,user_id = 100 添加了一行,因为他在 8.56 (即 300 秒后)返回。
解决方案
首先按 2 个条件过滤 - 比较每组user_id
的DataFrameGroupBy.shift
ed 值,以及每组的差异 by DataFrameGroupBy.diff
,然后重新分配evet
列 by DataFrame.assign
,最后concat
在一起并按以下排序DataFrame.sort_values
:
#MM/DD/YY HH:MM
#df['start_time'] = pd.to_datetime(df['start_time'])
#DD/MM/YY HH:MM
#df['start_time'] = pd.to_datetime(df['start_time'], dayfirst=True)
m1 = df['user_id'].eq(df.groupby('user_id')['user_id'].shift())
m2 = df.groupby('user_id')['start_time'].diff().dt.total_seconds() > 300
df1 = df[m1 & m2].assign(event='psuedo_App_start_2')
df1 = (pd.concat([df, df1], ignore_index=True)
.sort_values(['user_id','start_time'], ascending=[False, True]))
print (df1)
user_id start_time event
0 100 2019-03-04 06:11:00 psuedo_App_start
1 100 2019-03-04 06:11:00 notification_receive
2 100 2019-03-04 08:56:00 notification_dismiss
6 100 2019-03-04 08:56:00 psuedo_App_start_2
3 10 2019-03-04 22:05:00 psuedo_App_start
4 10 2019-03-04 22:05:00 subcategory_click
5 10 2019-03-04 22:06:00 subcategory_click
推荐阅读
- php - 如何从 fgetscv() 结果中删除引号?
- php - 如何在 Laravel 中实现简单的 CRUD 搜索?
- credentials - 以编程方式将机密附加到 credentials.yml.enc
- php - RegEx 用于匹配除空白以外的任何字符
- python - 将子列表分成多个列表并分配动态列表名称
- r - 使用带有 rvest 的“加载更多”按钮发出抓取页面
- matlab - 如何转动直方图的y轴以显示从0到1的百分比
- web-deployment - 如何在共享主机上部署 VuePress?
- python - 截断的 SVD 需要很多时间
- keyboard - 我已指定(标记为目标)约束文件的设计事件没有约束