首页 > 解决方案 > 压缩最近邻算法 - 返回数组的混淆

问题描述

我有一个关于压缩最近邻算法的问题:
在此处输入图像描述

为什么我要返回Z,如果我理解正确,它是所有错误分类点的数组?我不想返回正确分类的点吗?这对我返回所有错误的分数有什么好处?

标签: arraysalgorithmmachine-learningdimensionality-reduction

解决方案


您正在选择 2 个彼此非常接近但具有不同类的实例。这意味着新点很可能位于分隔类的边界中,这意味着将其保留在我们稍后将用于分类的集合中很重要。这就是您将其添加到 Z 的原因。

如果它们是同一个类,这意味着新点没有提供比我们在 Z 中已有的信息有用的信息,所以我们跳过它并且不添加它。直觉是我们试图只保留每个类的边界点并跳过同一类边界中间的那些。

请记住,这仍然是一种贪婪的方法,如果我们以另一个顺序处理,也许我们丢弃的一个点会很有用。维基百科文章也很有用。


推荐阅读