python - 使用python匹配或连接两个csv文件作为数据集
问题描述
我有两个 csv 格式的数据集。这些数据集有不同的列(列数甚至它们的标题),尽管我知道其中一些是常见的,但我的问题是找到常见的列。基本解决方案是逐一测试或测试两个数据集中的所有列组合。是否有任何解决方案、模型或方法来读取它们并找到共同的列来呈现最大匹配记录数?例如使用 python 或 pandas。
解决方案
你可以在 pandas 的交集处找到它。基本上,您在两个数据帧中读取 csv,然后找到列的交集,这将使您调用公共列
import pandas as pd
df1 = pd.read_csv("file1.csv")
df2 = pd.read_csv("file2.csv")
common_cols = df1.columns.intersection(df2.columns)
推荐阅读
- python - Django/Wagtail - 自定义表单小部件 CSS/JS 媒体未使用模板文件呈现
- regex - 仅当指定的字符出现一次时才匹配的正则表达式
- node.js - 上传文档或图像以及其他表单字段 node express
- excel - MS Excel 在 Google 表格中替代 ={A:A} 公式
- flutter - 如何在 wrap 小部件中填充内容?
- javascript - 在没有任何消息的情况下清除 javascript 中的控制台
- javascript - React:设置状态 Hook 会导致错误 - 重新渲染过多。React 限制渲染次数以防止无限循环
- mysql - 多个查询是并行运行还是一次一个?
- sql - 如何修改 SQL Server 中的索引类型?
- c++ - 为什么切换if else语句的顺序会报错?