首页 > 解决方案 > 使用python匹配或连接两个csv文件作为数据集

问题描述

我有两个 csv 格式的数据集。这些数据集有不同的列(列数甚至它们的标题),尽管我知道其中一些是常见的,但我的问题是找到常见的列。基本解决方案是逐一测试或测试两个数据集中的所有列组合。是否有任何解决方案、模型或方法来读取它们并找到共同的列来呈现最大匹配记录数?例如使用 python 或 pandas。

标签: pythonpandasdata-analysis

解决方案


你可以在 pandas 的交集处找到它。基本上,您在两个数据帧中读取 csv,然后找到列的交集,这将使您调用公共列

import pandas as pd

df1 = pd.read_csv("file1.csv")
df2 = pd.read_csv("file2.csv")
common_cols = df1.columns.intersection(df2.columns)

推荐阅读