python - 使用具有 2500 万行的 Pandas Dedupe
问题描述
我正在对包含 2500 万行以上的数据库表进行重复数据删除(使用字符串相似度算法进行模糊匹配)。Pandas dedupe 一直在针对较小的数据集(甚至多达 500 万行)进行完美处理。在 500 万次之后,即使运行 8 小时以上,该过程也需要很长时间并且崩溃。关于如何优化它的任何想法?理想情况下,我可以访问 pyspark 环境,但不幸的是,情况并非如此。
import pandas as pd
import pandas_dedupe
df = pd.read_sql("select row1, row2, row3")
df_final = pandas_dedupe.dedupe_dataframe(df, ['row1','row2','row3'])
df_final.to_csv('deduplicationOUT.csv')
解决方案
推荐阅读
- python - Python3如何从列表中检索列表
- shell - 在多个目录中执行`make`
- linux - 清漆 ESI 缓存 - 远程 url 返回 404
- reactjs - 在反应中将一些值从一页传递到另一页
- postgresql - Postgres lo_import 从其他表文本数据导入大对象
- javascript - JavaScript 编译器错误 - Google 跟踪代码管理器
- javascript - Wordpress 新页面和帖子未向公共用户显示 (IIS 8)
- java - MenuItem(系统托盘)的文本颜色
- php - 如何将 2 个 PHP 数组转换为 1 个 JSON 对象数组?
- excel - EXCEL:带有 sumproduct 或 rank.avg 的列表的平均排名?