python - Pandas 分组然后根据日期范围 +/- x-days 计数和求和
问题描述
在将数据框分组到某个列之后,我想在 +/- 7 天的时间内获得一个列的值的计数和总和
示例数据(经过编辑以反映我的真实数据集):
group | date | amount
-------------------------------------------
A | 2017-12-26 04:20:20 | 50000.0
A | 2018-01-17 00:54:15 | 60000.0
A | 2018-01-27 06:10:12 | 150000.0
A | 2018-02-01 01:15:06 | 100000.0
A | 2018-02-11 05:05:34 | 150000.0
A | 2018-03-01 11:20:04 | 150000.0
A | 2018-03-16 12:14:01 | 150000.0
A | 2018-03-23 05:15:07 | 150000.0
A | 2018-04-02 10:40:35 | 150000.0
group
然后根据date-7
< date
<进行分组date+7
我想要的结果:
group | date | amount | grouped_sum
-----------------------------------------------------------
A | 2017-12-26 04:00:00 | 50000.0 | 50000.0
A | 2018-01-17 00:00:00 | 60000.0 | 60000.0
A | 2018-01-27 06:00:00 | 150000.0 | 250000.0
A | 2018-02-01 01:00:00 | 100000.0 | 250000.0
A | 2018-02-11 05:05:00 | 150000.0 | 150000.0
A | 2018-03-01 11:00:04 | 150000.0 | 150000.0
A | 2018-03-16 12:00:01 | 150000.0 | 150000.0
A | 2018-03-23 05:00:07 | 100000.0 | 100000.0
A | 2018-04-02 10:00:00 | 100000.0 | 100000.0
实现数据集的快速片段:
group = 9 * ['A']
date = pd.to_datetime(['2017-12-26 04:20:20', '2018-01-17 00:54:15',
'2018-01-27 06:10:12', '2018-02-01 01:15:06',
'2018-02-11 05:05:34', '2018-03-01 11:20:04',
'2018-03-16 12:14:01', '2018-03-23 05:15:07',
'2018-04-02 10:40:35'])
amount = [50000.0, 60000.0, 150000.0, 100000.0, 150000.0,
150000.0, 150000.0, 150000.0, 150000.0]
df = pd.DataFrame({'group':group, 'date':date, 'amount':amount})
一点解释:
- 第 2 行是 40,因为它汇总了 2018-01-14 和 2018-01-15 期间 A 的数据
- 第 4 行是 30,因为它汇总了 B 在 2018-01-03 + 下 7 天期间的数据
- 第 6 行是 30,因为它汇总了 2018-01-03 + 前 7 天期间 B 的数据。
我不知道如何在一段日期范围内求和。如果我这样做,我也许可以做到:
1.创建另一列,每行显示 date-7 和 date+7
group | date | amount | date-7 | date+7
-------------------------------------------------------------
A | 2017-12-26 | 50000.0 | 2017-12-19 | 2018-01-02
A | 2018-01-17 | 60000.0 | 2018-01-10 | 2018-01-24
2.计算日期范围之间的金额:df[df.group == 'A' & df.date > df.date-7 & df.date < df.date+7].amount.sum()
3.但是这种方法相当繁琐。
编辑(2018-09-01):根据@jezrael 答案在下面找到此方法,该方法适用于我,但仅适用于单个组:
t = pd.Timedelta(7, unit='d')
def g(row):
res = df[(df.created > row.created - t) & (df.created < row.created + t)].amount.sum()
return res
df['new'] = df.apply(g, axis=1)
解决方案
这是每行和每组的问题需要循环:
t = pd.Timedelta(7, unit='d')
def f(x):
return x.apply(lambda y: x.loc[x['date'].between(y['date'] - t,
y['date'] + t,
inclusive=False),'amount'].sum() ,axis=1)
df['new'] = df.groupby('group', group_keys=False).apply(f)
print (df)
group date amount new
0 A 2018-01-01 10 10.0
1 A 2018-01-14 20 40.0
2 A 2018-01-15 20 40.0
3 B 2018-02-03 10 30.0
4 B 2018-02-04 10 30.0
5 B 2018-02-05 10 30.0
感谢@jpp 的改进:
def f(x, t):
return x.apply(lambda y: x.loc[x['date'].between(y['date'] - t,
y['date'] + t,
inclusive=False),'amount'].sum(),axis=1)
df['new'] = df.groupby('group', group_keys=False).apply(f, pd.Timedelta(7, unit='d'))
验证解决方案:
t = pd.Timedelta(7, unit='d')
df = df[df['group'] == 'A']
def test(y):
a = df.loc[df['date'].between(y['date'] - t, y['date'] + t,inclusive=False)]
print (a)
print (a['amount'])
return a['amount'].sum()
group date amount
0 A 2018-01-01 10
0 10
Name: amount, dtype: int64
group date amount
1 A 2018-01-14 20
2 A 2018-01-15 20
1 20
2 20
Name: amount, dtype: int64
group date amount
1 A 2018-01-14 20
2 A 2018-01-15 20
1 20
2 20
Name: amount, dtype: int64
df['new'] = df.apply(test,axis=1)
print (df)
group date amount new
0 A 2018-01-01 10 10
1 A 2018-01-14 20 40
2 A 2018-01-15 20 40
推荐阅读
- pandas - 拉取前 10% 的数据 pandas python
- javascript - 主干.js 库 checkmarx 问题
- reactjs - How to retain form values after submission with Formik
- c# - 我需要从配置文件中读取我的模型,而不是在解决方案中创建一个类
- excel - Excel VBA 类型不匹配尝试读取 .msg 文件
- excel - 基于不同单元格的 VBA 条件格式
- ios - iOS 音频:preferredPolarPattern 和 selectedPolarPattern 有什么区别?
- python - 根据 ID 创建购买功能
- keycloak - WebSessions 不显示使用 Spring Session 和 Keycloak 的复制行为
- c# - 如何 orderBy 动态地,基于导航属性