首页 > 解决方案 > 数据框填充子集

问题描述

我正在研究泰坦尼克号数据集。我创建了一个名称中带有标题的新功能(先生、夫人、硕士、博士……)。我用它来填充每个标题的中位数。

titanic_data.loc[titanic_data['Age'].isnull(), 'Age'] = titanic_data.groupby('Title')['Age'].median()[titanic_data['Title']]

无法使用 Titanic_data['Title] 从重复的轴重新索引,如果我这样做

titanic_data.loc[titanic_data['Age'].isnull(), 'Age'] = titanic_data.groupby('Title')['Age'].median()['Mr']

它充满了先生头衔的中位数,有什么想法吗?

标签: pythonpandas

解决方案


你应该做什么transform

titanic_data['new'] = titanic_data.groupby('Title')['Age'].transform('median')

推荐阅读