首页 > 解决方案 > pandaswide_to_long,id变量需要唯一标识每一行

问题描述

假设我有一个这样的数据框

ID,Time1,Value1,Time2,Value2,Time3,Value3
1,2,1.1,3,1.2,4,1.3
1,5,2.1,6,2.2,7,2.3

预期的数据框是这个

ID,Time,Value
1,2,1.1
1,3,1.2
1,4,1.3
1,5,2.1
1,6,2.2
1,7,2.3

如果该行具有唯一的 ID,则pd.wide_to_long在这种情况下可以完美运行。

df = pd.wide_to_long(df, ['Time',Value],'ID','value', sep='', suffix='.+')\
    .reset_index()\
    .sort_values(['ID', 'Time'])\
    .drop('value', axis=1)\
    .dropna(how='any')

但是在这种情况下如何解决,如果行的 ID 不是唯一的

标签: pythonpandasdataframe

解决方案


技巧reset_index用于唯一值列:

df = (pd.wide_to_long(df.reset_index(), ['Time','Value'],i='index',j='value')
        .reset_index(drop=True)
        .sort_values(['ID', 'Time'])
        .dropna(how='any')
        )
print (df)
   ID  Time  Value
0   1     2    1.1
2   1     3    1.2
4   1     4    1.3
1   1     5    2.1
3   1     6    2.2
5   1     7    2.3

详情

print (pd.wide_to_long(df.reset_index(), ['Time','Value'],i='index',j='value'))
             ID  Time  Value
index value                 
0     1       1     2    1.1
1     1       1     5    2.1
0     2       1     3    1.2
1     2       1     6    2.2
0     3       1     4    1.3
1     3       1     7    2.3

推荐阅读