python - 使用具有 2500 万行的 Pandas Dedupe

问题描述

我正在对包含 2500 万行以上的数据库表进行重复数据删除（使用字符串相似度算法进行模糊匹配）。Pandas dedupe 一直在针对较小的数据集（甚至多达 500 万行）进行完美处理。在 500 万次之后，即使运行 8 小时以上，该过程也需要很长时间并且崩溃。关于如何优化它的任何想法？理想情况下，我可以访问 pyspark 环境，但不幸的是，情况并非如此。

import pandas as pd
import pandas_dedupe

df = pd.read_sql("select row1, row2, row3")

df_final = pandas_dedupe.dedupe_dataframe(df, ['row1','row2','row3'])

df_final.to_csv('deduplicationOUT.csv')

标签： pythonpandas

python - 使用具有 2500 万行的 Pandas Dedupe

问题描述

解决方案

推荐阅读