python - 具有组条件的熊猫自定义聚合函数,这可能吗?
问题描述
我有以下数据框:
df = pd.DataFrame(
[{'price': 22, 'weight': 1, 'product': 'banana', },
{'price': 20, 'weight': 2, 'product': 'apple', },
{'price': 18, 'weight': 2, 'product': 'car', },
{'price': 100, 'weight': 1, 'product': 'toy', },
{'price': 27, 'weight': 1, 'product': 'computer', },
{'price': 200, 'weight': 1, 'product': 'book', },
{'price': 200.5, 'weight': 3, 'product': 'mouse', },
{'price': 202, 'weight': 3, 'product': 'door', },]
)
我要做的是按连续价格分组,其中它们之间的差异小于阈值(例如 2.0)或不。之后,我必须仅对“小于阈值”的组应用以下聚合,否则不应聚合该组:
price
应该是和之间的加权price
平均值weight
weight
应该是最大值product
应该是字符串连接
到目前为止我做了什么(一步一步):
- 我按价格升序对数据框进行排序(以获取连续值)
df.sort_values(by=['price'], inplace=True)
price weight product
2 18.0 2 car
1 20.0 2 apple
0 22.0 1 banana
4 27.0 1 computer
3 100.0 1 toy
5 200.0 1 book
6 200.5 3 mouse
7 202.0 3 door
- 获取升序和降序价格之间的差异以检测连续价格
df['asc_diff'] = df['price'].diff(periods=1)
df['desc_diff'] = df['price'].diff(periods=-1).abs()
price weight product asc_diff desc_diff
2 18.0 2 car NaN 2.0
1 20.0 2 apple 2.0 2.0
0 22.0 1 banana 2.0 5.0
4 27.0 1 computer 5.0 73.0
3 100.0 1 toy 73.0 100.0
5 200.0 1 book 100.0 0.5
6 200.5 3 mouse 0.5 1.5
7 202.0 3 door 1.5 NaN
- 合并
asc_diff
和desc_diff
列以删除NaN
和创建连续区域
df['asc_diff'] = df['asc_diff'].combine_first(df['desc_diff'])
df['asc_diff'] = df[['asc_diff', 'desc_diff']].min(axis=1).abs()
df['asc_diff'] = df['asc_diff'] <= 2.0
df = df.drop(columns=['desc_diff'])
price weight product asc_diff
2 18.0 2 car True
1 20.0 2 apple True
0 22.0 1 banana True
4 27.0 1 computer False
3 100.0 1 toy False
5 200.0 1 book True
6 200.5 3 mouse True
7 202.0 3 door True
- 创建了组
g = df.groupby((df['asc_diff'].shift() != df['asc_diff']).cumsum())
for k, v in g:
print(f'[group {k}]')
print(v)
[group 1]
price weight product asc_diff
2 18.0 2 car True
1 20.0 2 apple True
0 22.0 1 banana True
[group 2]
price weight product asc_diff
4 27.0 1 computer False
3 100.0 1 toy False
[group 3]
price weight product asc_diff
5 200.0 1 book True
6 200.5 3 mouse True
7 202.0 3 door True
到目前为止一切都很好,但是当我不得不汇总时,问题就来了:
def product_join(x):
return ' '.join(x)
g.agg({'weight': 'max', 'product': product_join})
weight product
asc_diff
1 2 car apple banana
2 1 computer toy
3 3 book mouse door
问题:
- 只应聚合第 1 组和第 3 组(但在适用于所有组的代码中)
- 即使使用自定义函数(例如 product_join),我也无法访问其他列的值,因此我可以获得例如加权平均价格。
我想要完成的事情:
- 仅聚合第 1 组和第 3 组(其中
asc_diff
为真)并保持第 2 组完整 - 在
price
聚合函数中,我需要一个函数来访问两列(即price
和weight
)以获得加权平均值
提前致谢!
解决方案
这建立在@Panwen Wang 的解决方案之上,并坚持使用 Pandas:
通过 cumsum 和 diff 获取连续行:
temp = (df
.sort_values('price')
.assign(group = lambda df: df.price.diff().gt(2).cumsum())
)
temp
price weight product group
2 18.0 2 car 0
1 20.0 2 apple 0
0 22.0 1 banana 0
4 27.0 1 computer 1
3 100.0 1 toy 2
5 200.0 1 book 3
6 200.5 3 mouse 3
7 202.0 3 door 3
创建一个自定义函数来获取加权平均值(您也可以使用 np.average,我只是想避免使用 apply 函数):
def weighted_mean(df, column_to_average, weights, by):
df = df.copy()
df = df.set_index(by)
numerator = df[column_to_average].mul(df[weights]).sum(level=by)
denominator = df[weights].sum(level=by)
return numerator/denominator
计算结果:
(temp
.assign(price = lambda df: df.group.map(weighted_mean))
.groupby('group')
.agg(price=('price','first'),
weight=('weight','max'),
product=('product', ' '.join))
)
price weight product
group
0 19.600000 2 car apple banana
1 27.000000 1 computer
2 100.000000 1 toy
3 201.071429 3 book mouse door
推荐阅读
- amazon-web-services - AWS CloudFront 现在要求备用 cname 具有导致问题的安全证书
- c# - HttpCookie dotnet 4.5.2 中缺少 C# SameSite 属性
- python - 如何阻止 tkinter 标签变小?
- spring - 如何在现有过滤器链之前添加自定义 Spring 过滤器?
- uwp-xaml - 地图控制——弹出窗口显示在 UWP 中的 pin 后面
- mysql - 是否有任何“差异”机制来计算行差异?
- vue.js - Vue 组件上的 MutationObserver
- python - Python pandas员工层次递归函数
- python - 模拟反斜杠键盘击键
- python - Django static files cannot find the path specified