deep-learning - 近似最近邻搜索的 k-means
问题描述
这是一个理论问题。
假设我有一个大小(N, D)
为数百万的数据集。如果我正确理解 k-means,它会将一个空间平均划分为 k 个子空间。如果是这种情况,我们是否可以简单地使用 k-means 中心(作为根节点)进行搜索,然后根据需要跳转到叶子中,从而消除在 ANN 搜索中“近似”的需要?
在上面的示例中,如果我们有 100 万个数据点并且 k 为 1000,我们将进行 2000 次比较(1000 个中心和 1000 个数据点)以获得最近的数据点。如果这仍然太多,我们可以进一步对中心进行聚类并进行 log N 比较。
解决方案
推荐阅读
- node.js - 将错误消息从猫鼬验证转换为用户友好的消息
- snowflake-cloud-data-platform - 如何使用 talend 在 snwoflake 表上执行 SCD 1
- java - GeoTools:将自定义多边形插入现有的 .shp 文件
- javascript - 使用 Selenium/Puppeteer 优化高速浏览器交互
- python - 样条与python scipy中的平面相交
- javascript - 允许在长度受限的字段中替换数字
- java - 如何编写标签中具有多个值(两行)的xpath
- symfony - 无法覆盖和使用 FOS 注册表单
- c - 为什么 i=i++ 的 i 值不增加;陈述?
- performance - Cortex M4 LDR/STR 时序