首页 > 解决方案 > 将 3 个 csv 文件与 Python Pandas 进行比较

问题描述

我需要比较 3 个 csv 文件以与 3 列进行比较(所有 3 个 csv 文件上的所有三列都具有相同的名称),以计算 1)重复的内容和 2)不同的内容(仅计数即可)。

前任。csv1 colB 需要检查并与 csv2 colB 和 csv3 colb 进行比较,以了解重复的计数总数(在 csv2,3 上匹配)和 coutn 总数(在 csv2/3 上匹配)。

所有 3 个 csv 都有相同的列名,colB 有 ip 地址,colC 有哈希值,colD 有域名。

我已经尝试过将 colB 与失败匹配的测试:

print(df[~df.colB.isin(df1.colB)]) #prints out all columns from df

尝试添加:

print(df[~df.colB.isin(df1.colB).count()]) #get multiple traceback errors

标签: pythonpandasdataframecsv

解决方案


与您一起尝试value_counts()将获得 True 和 False 的值。

df.colB.isin(df1.colB).value_counts()

我希望这就是你要找的。


推荐阅读