pandas - 用于比较数据库 (mysql) 表和 csvs 中的数据的 Pandas
问题描述
我正在寻找一种有效的方法来比较数据库(mysql)表和 csvs 中的数据。首选是使用数据框来比较数据并找出数据库中的任何“丢失的更新”。
CSV 的范围从 40MB 到 3.5GB,表可以多达数百 (200-300) 列,最大表上的当前最大行数为 6 亿。我最大的担忧和限制是内存利用率。我已经完成了此比较,以识别数据库和 csv 中仅关键列上的缺失记录,这些记录运行良好,但内存利用率最大化。为了识别没有在数据库中应用的任何更新,我需要做一个完整的行比较,这在内存方面会非常昂贵。
您是否想推荐一种更聪明的方法,或者您是否使用自定义脚本或工具做了类似的事情?
任何形式的指导将不胜感激:)
解决方案
推荐阅读
- c# - 在 c# 接口中设置属性中的实现细节
- python - 如何调用 Azure 认知服务 API?
- ios - 派生数据中生成的未知文件夹
- javascript - 如何获得构建的电子应用程序 PDB 文件
- mysql - 如何扩展缺少日期的窗口函数的输出
- javascript - 在 React 中选择多个子元素之一的正确方法是什么?
- python - 通过 *loc* 将 np.array 列表分配给 DataFrame 的行子集的奇怪行为
- javascript - 为什么 html2canvas 没有导出我的 JavaScript 工作区?
- css - 将 :nth-child 选择器与 CSS 网格一起使用会产生意想不到的行为
- html - 远距离刷卡离屏