首页 > 解决方案 > 用于比较数据库 (mysql) 表和 csvs 中的数据的 Pandas

问题描述

我正在寻找一种有效的方法来比较数据库(mysql)表和 csvs 中的数据。首选是使用数据框来比较数据并找出数据库中的任何“丢失的更新”。

CSV 的范围从 40MB 到 3.5GB,表可以多达数百 (200-300) 列,最大表上的当前最大行数为 6 亿。我最大的担忧和限制是内存利用率。我已经完成了此比较,以识别数据库和 csv 中仅关键列上的缺失记录,这些记录运行良好,但内存利用率最大化。为了识别没有在数据库中应用的任何更新,我需要做一个完整的行比较,这在内存方面会非常昂贵。

您是否想推荐一种更聪明的方法,或者您是否使用自定义脚本或工具做了类似的事情?

任何形式的指导将不胜感激:)

标签: pandascsvmemorylarge-data

解决方案


推荐阅读