duplicates - python pandas_dedupe 加载和集群文件缓慢
问题描述
我正在使用 pandas-dedupe 库来筛选包含 43 列的 51,540 条记录数据框。
加载文件并在提供主动学习输入后对其进行聚类大约需要一个小时。
我已经尝试更改 sample_size,但总的来说我必须遗漏一些东西,因为与我在这些论坛上看到的其他用户抛出的数据集相比,这是一个相当小的数据集。
是否为重复数据删除指定了太多列?我检查了其他要包含的参数,但没有想出任何我想进一步包含的参数。
if __name__ == "__main__":
df = pd.read_csv(R"filepath.txt", sep="\t", encoding="ISO-8859-1")
dedupe = pdd.dedupe_dataframe(
df,
['fname', 'lname', 'company', 'email'],
sample_size=0.05
)
dedupe.to_csv(R"filepath.txt")
解决方案
推荐阅读
- reactjs - (React.js) 冒泡排序问题
- java - HashiCorp Vault + Spring Boot。客户端 SSL 配置
- javascript - 测验网页java脚本错误的答案值增量
- typescript - 令人费解的地图类型
- ansible - 在组变量中设置 ansible_host
- javascript - 从 servlet 到 javascript 的字符串响应
- apache-spark - pyspark - 如何在 withColumn 中添加 express
- javascript - 从对象上的方法访问对象属性
- php - Opencart 语言前缀导致 Nginx 404
- python - 定义一个函数来过滤另一个数据帧的数据帧