首页 > 解决方案 > 如何将列转换为行?

问题描述

假设我有两行,其中大多数列的值相同,但并非全部。我想将这两行分组为一个值相同的行,如果值不同,则创建一个额外的列并将列名分配为“column1”

第1步:这里假设我的列在'a','b','c'行中具有相同的值,而具有不同值的列是'd','e','f',所以我使用分组'a','b','c' 然后拆垛 'd','e','f'

第 2 步:然后我降低级别,然后将其重命名为 'a','b','c','d','d1','e','e1','f','f1'

但在我的实际情况下,我有 500 多列和一百万行,我不知道如何将其扩展到 500 多列,我有这样的约束 1)我不知道哪些所有列将具有相同的值 2)所有列将具有与具有相同值的列分组后需要转换为新列的不同值

df.groupby(['a','b','c']) ['d','e','f'].apply(lambda x:pd.DataFrame(x.values)).unstack().reset_index()

df.columns = df.columns.droplevel()
df.columns = ['a','b','c','d','d1','e','e1','f','f1']

在此处输入图像描述

更清楚地说,下面的代码创建了示例数据框和预期输出

df = pd.DataFrame({'Cust_id':[100,100, 101,101,102,103,104,104], 'gender':['M', 'M', 'F','F','M','F','F','F'], 'Date':['01/01/2019', '02/01/2019','01/01/2019',
                                                                                                                   '01/01/2019','03/01/2019','04/01/2019','03/01/2019','03/01/2019'],
              'Product': ['a','a','b','c','d','d', 'e','e']})



expected_output = pd.DataFrame({'Cust_id':[100, 101,102,103,104], 'gender':['M', 'F','M','F','F'], 'Date':['01/01/2019','01/01/2019','03/01/2019','04/01/2019', '03/01/2019'], 'Date1': ['02/01/2019', 'NA','NA','NA','NA']
                                  , 'Product': ['a', 'b', 'd', 'd','e'], 'Product1':['NA', 'c','NA','NA','NA' ]})

标签: python-3.xpandasnumpydataframeanalytics

解决方案


您可以执行以下操作以expected_output获取df

s = df.groupby('Cust_id').cumcount().astype(str).replace('0', '')
df1 = df.pivot_table(index=['Cust_id', 'gender'], columns=s, values=['Date', 'Product'], aggfunc='first')
df1.columns = df1.columns.map(''.join)

Out[57]:
                      Date       Date1 Product Product1
Cust_id gender
100     M       01/01/2019  02/01/2019       a        a
101     F       01/01/2019  01/01/2019       b        c
102     M       03/01/2019         NaN       d      NaN
103     F       04/01/2019         NaN       d      NaN
104     F       03/01/2019  03/01/2019       e        e

接下来,将具有重复值的列替换为NA

df_expected = df1.where(df1.ne(df1.shift(axis=1)), 'NA').reset_index()

Out[72]:
   Cust_id gender        Date       Date1 Product Product1
0      100      M  01/01/2019  02/01/2019       a       NA
1      101      F  01/01/2019          NA       b        c
2      102      M  03/01/2019          NA       d       NA
3      103      F  04/01/2019          NA       d       NA
4      104      F  03/01/2019          NA       e       NA

推荐阅读