首页 > 解决方案 > python pandas_dedupe 加载和集群文件缓慢

问题描述

我正在使用 pandas-dedupe 库来筛选包含 43 列的 51,540 条记录数据框。

加载文件并在提供主动学习输入后对其进行聚类大约需要一个小时。

我已经尝试更改 sample_size,但总的来说我必须遗漏一些东西,因为与我在这些论坛上看到的其他用户抛出的数据集相比,这是一个相当小的数据集。

是否为重复数据删除指定了太多列?我检查了其他要包含的参数,但没有想出任何我想进一步包含的参数。

if __name__ == "__main__":
    df = pd.read_csv(R"filepath.txt", sep="\t", encoding="ISO-8859-1")

    dedupe = pdd.dedupe_dataframe(
        df,
        ['fname', 'lname', 'company', 'email'],
        sample_size=0.05
    )
    dedupe.to_csv(R"filepath.txt")

标签: duplicates

解决方案


推荐阅读