首页 > 解决方案 > 3 个数据框和 3 个操作规则将数据插入另一个数据框 - 没有公共列 - 大数据

问题描述

我有 3 个不同的数据帧,可以使用下面给出的代码生成

data_file= pd.DataFrame({'person_id':[1,2,3],'gender': ['Male','Female','Not disclosed'],'ethnicity': ['Chinese','Indian','European'],'Marital_status': ['Single','Married','Widowed'],'Smoke_status':['Yes','No','No']})
map_file= pd.DataFrame({'gender': ['1.Male','2. Female','3. Not disclosed'],'ethnicity': ['1.Chinese','2. Indian','3.European'],
              'Marital_status':['1.Single','2. Married','3 Widowed'],'Smoke_status':['1. Yes','2. No',np.nan]})
hash_file = pd.DataFrame({'keys':['gender','ethnicity','Marital_status','Smoke_status','Yes','No','Male','Female','Single','Married','Widowed','Chinese','Indian','European'],'values':[21,22,23,24,125,126,127,128,129,130,131,141,142,0]})

并且可以使用下面的代码生成另一个应该填充输出的空数据框

columns = ['person_id','obsid','valuenum','valuestring','valueid']
obs = pd.DataFrame(columns=columns)

我想要实现的目标显示在表格中,您可以在其中看到如何填充数据的规则和描述

在此处输入图像描述

我确实尝试过通过 for 循环方法,但是一旦我将它拆开,我就会丢失列名,并且不确定如何进一步进行。

a=1
for i in range(len(data_file)):
   df_temp = data_file[i:a]
   a=a+1
   df_temp=df_temp.unstack()
   df_temp = df_temp.to_frame().reset_index()

我怎样才能让我的输出数据框填充如下所示(ps:我只显示了 person_id = 1 和 4 列),但实际上,我有超过 25k 个人和每个人 400 列。因此,与我的 for 循环不同,任何优雅而有效的方法都会有所帮助。

在此处输入图像描述

标签: pythonpython-3.xpandasdataframemerge

解决方案


这是使用DataFrame.meltand的替代方法Series.map

# Solution for pandas V 0.24.0 +

columns = ['person_id','obsid','valuenum','valuestring','valueid']

# Create map Series
hash_map = hash_file.set_index('keys')['values']
value_map = map_file.stack().str.split('\.\s?', expand=True).set_index(1, append=True).droplevel(0)[0]

# Melt and add mapped columns
obs = data_file.melt(id_vars=['person_id'], value_name='valuestring')
obs['obsid'] = obs.variable.map(hash_map)
obs['valueid'] = obs.valuestring.map(hash_map).astype('Int64')
obs['valuenum'] = obs[['variable', 'valuestring']].apply(tuple, axis=1).map(value_map)

# Reindex and sort for desired output
obs.reindex(columns=columns).sort_values('person_id')

[出去]

    person_id  obsid valuenum    valuestring  valueid
0           1     21        1           Male      127
3           1     22        1        Chinese      141
6           1     23        1         Single      129
9           1     24        1            Yes      125
1           2     21        2         Female      128
4           2     22        2         Indian      142
7           2     23        2        Married      130
10          2     24        2             No      126
2           3     21        3  Not disclosed      NaN
5           3     22        3       European        0
8           3     23        3        Widowed      131
11          3     24        2             No      126

推荐阅读