首页 > 解决方案 > 使用具有 2500 万行的 Pandas Dedupe

问题描述

我正在对包含 2500 万行以上的数据库表进行重复数据删除(使用字符串相似度算法进行模糊匹配)。Pandas dedupe 一直在针对较小的数据集(甚至多达 500 万行)进行完美处理。在 500 万次之后,即使运行 8 小时以上,该过程也需要很长时间并且崩溃。关于如何优化它的任何想法?理想情况下,我可以访问 pyspark 环境,但不幸的是,情况并非如此。

import pandas as pd
import pandas_dedupe

df = pd.read_sql("select row1, row2, row3")

df_final = pandas_dedupe.dedupe_dataframe(df, ['row1','row2','row3'])

df_final.to_csv('deduplicationOUT.csv')

标签: pythonpandas

解决方案


推荐阅读