python - 用来自其他数据帧的值有效地替换 Pandas 数据帧
问题描述
下面有3组数据帧代码:
dataset = {
'X1': [18, 70, 70, 65, 18],
'X2': [1, 2, 2, 2, 1],
'X3': [45, 55, 22, 31, 23],
'X4': [1, 2, 1, 1, 2],
'X5': [65, 80, 500, 200, 100]}
df = pd.DataFrame(dataset)
dataset1 = {
'Variable': ['X1', 'X2', 'X3', 'X4', 'X5'],
'Label': ['Age', 'Sex', 'Ethnicity', 'Education', 'Income']}
df_labels = pd.DataFrame(dataset1)
dataset2 = {
'Variable': ['X1', 'X1', 'X1', 'X4', 'X4', 'X2', 'X2', 'X5', 'X5'],
'Code': [18, 70, 65, 1, 2, 1, 2, 65, 80],
'Value': ['18-24', '70-90', '65-80', 'Degree', 'Masters', 'Male', 'Female', '65K', '80K'] }
df_values = pd.DataFrame(dataset2)
df
df_labels
df_values
我使用 df_values 表编写了以下代码来替换 df 数据框中的值。
df["X1"].replace({18: "18-24", 70: "70-90", 65: "65-80"}, inplace=True)
df["X2"].replace({1: "Male", 2: "Female"}, inplace=True)
df["X4"].replace({1: "Degree", 2: "Masters"}, inplace=True)
df["X5"].replace({65: "65K", 80: "80K"}, inplace=True)
这导致了这个数据框:
这种替换很简单,因为对几个变量只有 4 组替换。但是,该数据集包含近 100 个变量。是否有更简单的方法可以使用 df_values 表替换所有值(对于所有 100 个变量)?
解决方案
replace
让我们在旋转替换数据框后尝试
df.replace(df_values.pivot(*df_values).T)
X1 X2 X3 X4 X5
0 18-24 Male 45 Degree 65K
1 70-90 Female 55 Masters 80K
2 70-90 Female 22 Degree 500
3 65-80 Female 31 Degree 200
4 18-24 Male 23 Masters 100
推荐阅读
- r - Shiny 无法正确加载 RDS 对象----警告:predict_sbo_predictor 中的错误:外部指针无效?
- vega-lite - 分组条形图:“底部”组名位置
- c# - “智能”汽车在相同的输入下表现不同
- reactjs - 如何将父项目中的 npm 包导入到我的库中
- jestjs - 重复的文件名 - index.js - jest-haste-map
- html - 如何将 Ransack 参数 [:q] 从索引传递到同一控制器的更新操作以维护过滤结果?
- javascript - 如何防止css水平选框动画重置
- javascript - 如何在javascript中设置th标签的宽度等于它下面的td标签的宽度?
- javascript - 如何获得最终的重定向网址?
- javascript - 在javascript中将INT64字符串转换为INT64数字