python - 在包含排序组的 pandas 数据框中创建一个计算列
问题描述
假设有一个 pandas 数据框,其中的行包含一些已排序的分组数据(给定名称的所有值组都彼此相邻出现),我们想引入一个新的计算列,该列分配值取决于某些列的值。如果第一个值为零,则组的所有值都将获得第一个非零值或 nan,如果没有这样的值。否则,如果第一个值不为零,则分配一个固定值,例如-1
。
示例输入数据框:
name value
0 a 0
1 a 0
2 a 6
3 a 8
4 b 0
5 b 0
6 c 5
7 c 7
创建列的示例输出数据框calc
。
name value calc
0 a 0 6
1 a 0 6
2 a 6 6
3 a 8 6
4 b 0 nan
5 b 0 nan
6 c 5 -1
7 c 7 -1
我正在考虑的方法是创建每个组的第一个非零值的查找表,因此对于上面的示例,它将是:
value
a 6
c 5
然后迭代输入数据框并按照上述逻辑构造值列表,然后将其分配给新列。
解决方案
为了获得更好的性能最好不要使用groupby
,更好的是创建最终字典和map
:
#get all names with 0
contains_zeros = df.loc[df['value'] == 0, 'name'].unique()
print (contains_zeros)
['a' 'b']
#get first non zero values only names with 0
s = df[df['name'].isin(contains_zeros) & (df['value'] != 0)].drop_duplicates('name')
print (s)
name value
2 a 6
#first non zero dictionary
d1 = s.set_index('name')['value'].to_dict()
print (d1)
{'a': 6}
#dictionary with all 0 in name
d2 = dict.fromkeys(set(contains_zeros) - set(s['name']), np.nan)
print (d2)
{'b': nan}
#all dictionary without 0
d3 = dict.fromkeys(set(df['name'].unique()) - set(contains_zeros), -1)
print (d3)
{'c': -1}
#merge all together
#https://stackoverflow.com/q/38987
d = {**d1, **d2, **d3}
print (d)
{'a': 6, 'b': nan, 'c': -1}
df['calc'] = df['name'].map(d)
print (df)
name value calc
0 a 0 6.0
1 a 0 6.0
2 a 6 6.0
3 a 8 6.0
4 b 0 NaN
5 b 0 NaN
6 c 5 -1.0
7 c 7 -1.0
另一个较慢的解决方案groupby
:
def f(x):
if (x== 0).all():
return np.nan
elif (x == 0).any():
return x[x != 0].iloc[0]
else:
return -1
df['calc'] = df.groupby('name')['value'].transform(f)
print (df)
name value calc
0 a 0 6.0
1 a 0 6.0
2 a 6 6.0
3 a 8 6.0
4 b 0 NaN
5 b 0 NaN
6 c 5 -1.0
7 c 7 -1.0
推荐阅读
- python - 每个实例的 Keras 自定义损失
- php - 在 PHP 中将表单数据作为表格格式的电子邮件发送
- c# - 获取映射的外键字段名,Entity Framework v6
- firebase - 我收到 Unhandled Promise Rejection 错误和一些数据结构建议
- javascript - 无法让 vanilla JS onreadystatechange 函数/readyState 4 工作
- linux - 如何将 .net 核心 Web API 作为 Linux 守护进程运行
- php - 将帖子中的自定义元框更改为页面
- python - Python 中的 Hot Deck 插补
- javascript - 通过将参数包装在函数中来延迟评估?
- dart - 将方法签名与模拟类中的未知参数匹配