python - 聚类大量字符串
问题描述
我有一个约 381,000 个字符串的列表。我设法计算了所有 NC2 对(约 720 亿)的字符串距离。
现在,我想形成字符串簇以进行快速搜索。我通常使用 sklearn 凝聚聚类。但是,我担心这一次我可能会遇到记忆问题。
字符串簇的目的是让我可以在数据输入执行人员输入名称时快速搜索相似的名称。
如何在如此大的集合上实现聚类?有没有更好的方法来实现我的目的?
解决方案
推荐阅读
- virtual-machine - 集成网络摄像头未连接到 Vmware
- date - 将带有时间戳的 MMM DD、YYYY 转换为 Google 表格中的 MM/DD/YYYY
- java - android Java中的浮点小数
- reactjs - 如何在下一个 js 的预渲染页面中测试已调度的操作
- reactjs - 我获取了一个数组并想将其添加到我的状态中
- javascript - 参数“item”隐式具有“any”类型
- postgresql - Dockerized PGAdmin 映射卷 + COPY 不起作用
- c# - 使用 ViewModel 中的属性值显示表单字段名称和验证消息
- arrays - 给定一组数据,是否有一种简单的方法可以找到多个标题列?
- google-compute-engine - cannot create instance from local image