python - Pandas Python:连接具有相同列的数据帧
问题描述
我有 3 个具有相同列名的数据框。说 :
df1
column1 column2 column3
a b c
d e f
df2
column1 column2 column3
g h i
j k l
df3
column1 column2 column3
m n o
p q r
每个数据框具有不同的值但具有相同的列。我尝试了追加和连接,以及合并外部但有错误。这是我尝试过的:
df_final = df1.append(df2, sort=True,ignore_index=True).append2(df3, sort=True,ignore_index=True)
我也试过:
df_final = pd.concat([df1, df2, df3], axis=1)
但我得到这个错误:
AssertionError: Number of manager items must equal union of block items# manager items: 61, # tot_items: 62
我已经用谷歌搜索了这个错误,但我似乎无法理解为什么它会发生在我的案例中。非常感谢任何指导!
解决方案
我认为某些或所有 DataFrame 中的重复列名称存在问题。
#simulate error
df1.columns = ['column3','column1','column1']
df2.columns = ['column5','column1','column1']
df3.columns = ['column2','column1','column1']
df_final = pd.concat([df1, df2, df3])
AssertionError:管理器项的数量必须等于块项的联合#管理器项:4,#tot_items:5
您可以找到重复的列名称:
print (df3.columns[df3.columns.duplicated(keep=False)])
Index(['column1', 'column1'], dtype='object')
可能的解决方案是按列表设置列名:
df3.columns = ['column1','column2','column3']
print (df3)
column1 column2 column3
0 m n o
1 p q r
或删除具有重复名称的重复列:
df31 = df3.loc[:, ~df3.columns.duplicated()]
print (df31)
column2 column1
0 m n
1 p q
那么concat
或者append
应该工作得很好。