首页 > 解决方案 > 如何加入两个数据框并将所有关键列保留在熊猫中?

问题描述

我需要使用相同的键来内部连接 ​​2 个数据帧我在进行连接时创建了几个临时数据帧下面的代码工作正常,但我想知道在加入下面的两个 pandas 数据帧时是否有办法保留两个连接键列主题作为关键。

head = [['nationality', 'BART', 'USA']]
body = [['placeOfBirth', 'BART', 'NEWYORK'], ['hasFather', 'BART', 'HOMMER']]
head_df = pd.DataFrame(head, columns = ['pred', 'subj', 'obj'])
body_df = pd.DataFrame(body, columns = ['pred', 'subj', 'obj'])
joined_df = pd.merge(head_df, body1_df, how='inner' ,on='subj')

我有这两个数据框

头_df:

          pred  subj  obj
0  nationality  BART  USA

body_df :

           pred  subj      obj
0  placeOfBirth  BART  NEWYORK
1     hasFather  BART   HOMMER

我想加入(内部)这两个基于 subj(head_df)和 subj(body_df)的数据帧。

我想要的输出是

        pred_x subj_x obj_x        pred_y subj_y    obj_y
0  nationality   BART   USA  placeOfBirth   BART  NEWYORK
1  nationality   BART   USA     hasFather   BART   HOMMER

谢谢

标签: pythonpandasdataframe

解决方案


如果要将“_x”和“_y”添加到列标签,请使用suffixes.

joined_df = pd.merge(head_df, body_df, how='inner', on='subj', suffixes=['_x', '_y'])

结果将是:

    pred_x  subj    obj_x   pred_y  obj_y
0   nationality BART    USA placeOfBirth    NEWYORK
1   nationality BART    USA hasFather   HOMMER

我不知道你为什么需要重复的加入列。只复制那些列怎么样?

joined_df = pd.merge(head_df, body_df, how='inner', on='subj', suffixes=['_x', '_y'])
joined_df.rename(columns={'subj':'subj_x'}, inplace=True)
joined_df['subj_y'] = joined_df['subj_x']

结果将是:

    pred_x  subj_x  obj_x   pred_y  obj_y   subj_y
0   nationality BART    USA placeOfBirth    NEWYORK BART
1   nationality BART    USA hasFather   HOMMER  BART

推荐阅读