首页 > 解决方案 > 如何创建关联表?

问题描述

我有一个 excel 文件,在一列中,我有症状。

我的工作是创建一个新的 Excel 文件,其中每个症状都相互交叉,这样我就可以计算每个关联的支持、信心和提升。

原始的 excel 文件有超过 1500 种不同的症状。所以联想excel会很大。

有谁现在我应该怎么做?

我想要一张桌子:

症状 1 - 症状 2

症状 2 - 症状 3

症状 1 - 症状 3

标签: python

解决方案


要创建具有所有其他症状的另一列,请使用:

df = pd.read_excel(my_file)
df['key'] = 1
df = df.merge(df.rename({'sympthom': 'symptom2'}, axis=1), how='outer').drop('key', 
axis=1)
df = df[df['symptom'] < df['symptom2']] # to remove duplicates
df.to_excel('new_file.xlsx', index=False)

现在在“new_file”中,您将有两列包含所有症状匹配


推荐阅读