首页 > 解决方案 > 聚类大量字符串

问题描述

我有一个约 381,000 个字符串的列表。我设法计算了所有 NC2 对(约 720 亿)的字符串距离。

现在,我想形成字符串簇以进行快速搜索。我通常使用 sklearn 凝聚聚类。但是,我担心这一次我可能会遇到记忆问题。

字符串簇的目的是让我可以在数据输入执行人员输入名称时快速搜索相似的名称。

如何在如此大的集合上实现聚类?有没有更好的方法来实现我的目的?

标签: pythondata-sciencehierarchical-clustering

解决方案


推荐阅读