首页 > 解决方案 > 近似最近邻搜索的 k-means

问题描述

这是一个理论问题。

假设我有一个大小(N, D)为数百万的数据集。如果我正确理解 k-means,它会将一个空间平均划分为 k 个子空间。如果是这种情况,我们是否可以简单地使用 k-means 中心(作为根节点)进行搜索,然后根据需要跳转到叶子中,从而消除在 ANN 搜索中“近似”的需要?

在上面的示例中,如果我们有 100 万个数据点并且 k 为 1000,我们将进行 2000 次比较(1000 个中心和 1000 个数据点)以获得最近的数据点。如果这仍然太多,我们可以进一步对中心进行聚类并进行 log N 比较。

标签: deep-learningapproximate-nn-searching

解决方案


推荐阅读