首页 > 解决方案 > 用来自其他数据帧的值有效地替换 Pandas 数据帧

问题描述

下面有3组数据帧代码:

dataset = {
        'X1': [18, 70, 70, 65, 18],
        'X2': [1, 2, 2, 2, 1],
        'X3': [45, 55, 22, 31, 23],
        'X4': [1, 2, 1, 1, 2],
        'X5': [65, 80, 500, 200, 100]}

df = pd.DataFrame(dataset)


dataset1 = {
        'Variable': ['X1', 'X2', 'X3', 'X4', 'X5'],
        'Label': ['Age', 'Sex', 'Ethnicity', 'Education', 'Income']}

df_labels = pd.DataFrame(dataset1)


dataset2 = {
        'Variable': ['X1', 'X1', 'X1', 'X4', 'X4', 'X2', 'X2', 'X5', 'X5'],
        'Code': [18, 70, 65, 1, 2, 1, 2, 65, 80],
        'Value': ['18-24', '70-90', '65-80', 'Degree', 'Masters', 'Male', 'Female', '65K', '80K'] }

df_values = pd.DataFrame(dataset2)

df

在此处输入图像描述

df_labels

在此处输入图像描述

df_values

在此处输入图像描述

我使用 df_values 表编写了以下代码来替换 df 数据框中的值。

df["X1"].replace({18: "18-24", 70: "70-90", 65: "65-80"}, inplace=True)
df["X2"].replace({1: "Male", 2: "Female"}, inplace=True)
df["X4"].replace({1: "Degree", 2: "Masters"}, inplace=True)
df["X5"].replace({65: "65K", 80: "80K"}, inplace=True)

这导致了这个数据框:

在此处输入图像描述

这种替换很简单,因为对几个变量只有 4 组替换。但是,该数据集包含近 100 个变量。是否有更简单的方法可以使用 df_values 表替换所有值(对于所有 100 个变量)?

标签: pythonpandas

解决方案


replace让我们在旋转替换数据框后尝试

df.replace(df_values.pivot(*df_values).T)

      X1      X2  X3       X4   X5
0  18-24    Male  45   Degree  65K
1  70-90  Female  55  Masters  80K
2  70-90  Female  22   Degree  500
3  65-80  Female  31   Degree  200
4  18-24    Male  23  Masters  100

推荐阅读