pandas - 重塑数据框 pandas
问题描述
我有:
data1=['id1','id2','id3','id1','id5']
data2=['','A','','B','']
data3=['m1','m1','m1','m2','m2']
data4=['1.22','sd','EUR','1.456','GB1234']
pd.DataFrame({'identifier':data1,'name':data2,'grp':data3,'value':data4})
identifier name grp value
0 id1 m1 1.22
1 id2 A m1 sd
2 id3 m1 EUR
3 id1 B m2 1.456
4 id5 m2 GB1234
我想:
id1 id2 id3 id5
A 1.220 sd EUR
B 1.456 GB1234
有什么建议么?我的真实数据有 109 个标识符,6k 个名称,1k 个组一些注释:
- 所有标识符都有可能是相同的 bt 不同的组
- 最后,我希望将所有标识符作为一列,将名称作为索引,将值作为值
我试过df2=df.pivot(values='value',columns='field',index='ticker')
并得到了错误:ValueError: Index contains duplicate entries, cannot reshap
我尝试在熊猫中重塑数据框,但它有点不同
解决方案
我认为您需要DataFrame.pivot_table
聚合first
,如果需要通过第一个非空字符串替换组name
添加rename
:
s = df.assign(name = df['name'].replace('', np.nan)).groupby('grp')['name'].first()
df2=df.pivot_table(values='value',
columns='identifier',
index='grp',
aggfunc='first').rename(s)
print (df2)
identifier id1 id2 id3 id5
grp
A 1.22 sd EUR NaN
B 1.456 NaN NaN GB1234
推荐阅读
- python - 从 Pandas 的最后一个日期开始计算每年的最后一个值
- ios - NavigationItem.titleView 没有得到正确的大小
- python - 如何使用python从json格式的键中提取值
- powerbi - 计算汇总表列的累计总和
- jquery - 从下拉菜单中找出点击的选项
- c# - .NET Core 环境变量返回 null
- autosar - 我们如何在 RTE 中为应用层接口分配初始值?
- obfuscation - Dotfuscator 专业版字符串加密不起作用
- java - Tapestry 5.1 中的 AjaxResponseRenderer
- python - 作为子进程 1 运行连续脚本,直到子进程 2 中的循环完成