首页 > 解决方案 > 使用 pivot_table 将一列 dict 聚合到一个 dict 列表中 - Pandas

问题描述

我有一个这样的数据框输入:

data = {'annee': [2015, 2015],
        'medaille': ['Argent', 'Bronze'],
        'categorie': ['Punchs', 'Punchs'],
        'raisonSociale': ['Héritiers H Clément', 'Héritiers H Clément'],
        'Marque': ['Clément', 'Clément'],
        'Medaille_Rhum': [{'annee': 2015,
                           'medaille': 'Argent',
                           'produit': np.nan,
                           'Rhum_Name': 'PUNCH CAFE CLEMENT',
                           'Age': np.nan,
                           'labels': np.nan},
                          {'annee': 2015,
                           'medaille': 'Bronze',
                           'produit': np.nan,
                           'Rhum_Name': 'PUNCH PINA COLADA CLEMENT',
                           'Age': np.nan,
                           'labels': np.nan}],
        'Or': [0, 0],
        'Argent': [1, 0],
        'Bronze': [0, 1],
        'Score': [2, 1]}

df = pd.DataFrame(data)

是的,它是加勒比朗姆酒的数据框

我想pivot_table()在具有分值的列中使用“annee”(例如年份)。我实现了它,但我也想在字典列表中聚合“Rhum_Name”列。

我尝试了以下代码:

def ListDict(df):
    listDict = []
    listDict.extend(df)
    return listDict


df_ranking = df_ranking.pivot_table(index=['raisonSociale', 'Marque', 'categorie'],
                              columns =['annee', 'Medaille_Rhum'],
                              values = 'Score',
                              fill_value = '',
                              aggfunc = {'annee': sum, 'Medaille_Rhum': ListDict},
                              margins = True, 
                              margins_name = 'Total')

我得到这个错误TypeError: unhashable type: 'dict'。我认为这是因为,pivot_table想直接迭代字典,但我无法想象如何使它工作。

提前谢谢你们!

标签: python-3.xpandasdataframejson-normalize

解决方案


  • 将dict转换为数据框
  • 'Medaille_Rhum'的一列dicts转换为数据框并将其连接回df.
  • 不要试图Medaille_Rhum重塑pivot_table

形成数据框

import pandas as pd
import numpy as np

# create dataframe
df = pd.DataFrame(data)

# convert the dict in medaille_Rhum to a dataframe and join it back to df
df = df.join(pd.DataFrame(df.pop('Medaille_Rhum').values.tolist())['Rhum_Name'])

# display(df)
   annee medaille categorie        raisonSociale   Marque  Or  Argent  Bronze  Score                  Rhum_Name
0   2015   Argent    Punchs  Héritiers H Clément  Clément   0       1       0      2         PUNCH CAFE CLEMENT
1   2015   Bronze    Punchs  Héritiers H Clément  Clément   0       0       1      1  PUNCH PINA COLADA CLEMENT

创建 Medaille_Rhum 列表

medaille_rhum = [v for v in data['Medaille_Rhum']]

# print(medaille_rhum)
[{'annee': 2015,
  'medaille': 'Argent',
  'produit': nan,
  'Rhum_Name': 'PUNCH CAFE CLEMENT',
  'Age': nan,
  'labels': nan},
 {'annee': 2015,
  'medaille': 'Bronze',
  'produit': nan,
  'Rhum_Name': 'PUNCH PINA COLADA CLEMENT',
  'Age': nan,
  'labels': nan}]

推荐阅读