python - 一起工作时间最长的一对员工——Python/Pandas
问题描述
我最近不得不编写一个代码,它返回在一个共同项目上合作最多的员工对。这是我想出的代码:
注 1:Null 被程序读取为“今天”
注 2:数据来自 .txt 文件,格式如下:
EmpID,ProjectID,DateFrom,DateTo
1,101,2014-11-01,2015-05-01
1,103,2013-11-01,2016-05-01
2,101,2013-12-06,2014-10-06
2,103,2014-06-05,2015-05-14
3,100,2016-03-01,2018-07-03
3,102,2015-06-04,2017-09-04
3,103,2015-06-04,2017-09-04
4,102,2013-11-13,2014-03-13
4,103,2016-02-14,2017-03-15
4,104,2014-10-01,2015-12-01
5,100,2013-03-07,2015-11-07
5,101,2015-07-09,2019-01-19
5,102,2014-03-15,NULL
6,101,2014-03-15,2014-03-16
我目前遇到的问题是我必须调整/更改代码以返回彼此合作时间最长的一对员工(不是在单个项目上,而是在所有项目上合并)。我在调整我当前的代码时遇到了麻烦,它运行得非常好,我想知道我是否应该从头开始(但这会花费我很多时间,我不这样做)目前没有)。我很难获得在项目上一起工作的员工组合。
如果有人能给我任何提示,我将不胜感激!谢谢!
编辑1:评论中的一个人提醒我提到应该计算重叠天数,例如:
整个 6 月,A 人和 B 人在两个项目上工作。这意味着它应该算作 30 天的总共同工作(对于两个项目),而不是将两个项目时间加在一起,这将导致 60 天。
解决方案
这是我能想到的更直接的方法之一。
- 将时间跨度扩展到每个日期的一行。
- 合并同一个项目的所有日子(以获得一起工作的人的所有组合)
- 删除在同一天一起工作但不同项目的重复行。
- 只需找出每个工人配对中有多少行。
代码:
import pandas as pd
import numpy as np
def expand_period_daily(df, start, stop):
# Allows it to work for one day spans.
df.loc[df[stop].notnull(), stop] = (df.loc[df[stop].notnull(), stop]
+ pd.Timedelta(hours=1))
real_span = df[[start, stop]].notnull().all(1)
# Resample timespans to daily fields.
df['temp_id'] = range(len(df))
dailydf = (df.loc[real_span, ['temp_id', start, stop]].set_index('temp_id').stack()
.reset_index(level=-1, drop=True).rename('period').to_frame())
dailydf = (dailydf.groupby('temp_id').apply(lambda x: x.set_index('period')
.resample('d').asfreq()).reset_index())
# Merge back other information
dailydf = (dailydf.merge(df, on=['temp_id'])
.drop(columns=['temp_id', start, stop]))
return dailydf
# Make dates, fill missings.
df[['DateFrom', 'DateTo']] = df[['DateFrom', 'DateTo']].apply(pd.to_datetime, errors='coerce')
df[['DateFrom', 'DateTo']] = df[['DateFrom', 'DateTo']].fillna(pd.to_datetime('today').normalize())
dailydf = expand_period_daily(df.copy(), start='DateFrom', stop='DateTo')
# Merge, remove rows of employee with him/herself.
m = (dailydf.merge(dailydf, on=['period', 'ProjectID'])
.loc[lambda x: x.EmpID_x != x.EmpID_y])
# Ensure A-B and B-A are grouped the same
m[['EmpID_x', 'EmpID_y']] = np.sort(m[['EmpID_x', 'EmpID_y']].to_numpy(), axis=1)
# Remove duplicated projects on same date between employee pairs
m = m.drop_duplicates(['period', 'EmpID_x', 'EmpID_y'])
m.groupby(['EmpID_x', 'EmpID_y']).size().to_frame('Days_Together')
输出:
Days_Together
EmpID_x EmpID_y
1 2 344
3 333
4 78
2 6 2
3 4 396
5 824
测试用例
为了更清楚地说明它如何处理重叠以及组合不同的项目,下面是以下测试用例:
EmpID ProjectID DateFrom DateTo
0 1 101 2014-11-01 2014-11-15
1 1 103 2014-11-01 2014-11-15
2 1 105 2015-11-02 2015-11-03
3 2 101 2014-11-01 2014-11-15
4 2 103 2014-11-01 2014-11-15
5 2 105 2015-10-02 2015-11-05
6 3 101 2014-11-01 2014-11-15
2014 年 11 月,员工 1 和 2 在 2 个项目上完美重叠了 15 天。然后,他们在 2015 年在另一个项目上一起工作了 2 天。1、2 和 3 一起在一个项目上工作了 15 天。
运行这个测试用例,我们得到:
Days_Together
EmpID_x EmpID_y
1 2 17
3 15
2 3 15
推荐阅读
- r - R中的read_excel会为包含数字和文本值的列产生某些浮点数
- r - Find a pattern of a matrix in R?
- python-3.x - Asyncio task creation with different accepted methods give different results
- python - Adding a key, value to a dict, but I didn't tell it to?
- firebase - Unable to fetch data of specific user from Firebase Firestore to map
- angular - ERROR Cannot read property 'name' of undefined using .subscribe
- github - 如何更改 GitHub 上 PR 的所有者 / 如何征用开放的 GitHub PR
- python - 类型错误:__init__() 缺少 1 个必需的位置参数:“父”
- python - 在 Python 中,每当我尝试将字符串输入与字符串变量进行比较时,它都不起作用
- node.js - Keycloak, trying to auth with keycloak-admin package