machine-learning - 分类中错误率的定义以及为什么一些研究人员使用错误率而不是准确率

问题描述

分类中错误率的确切定义是什么？为什么有些研究人员使用错误率而不是准确性来报告他们的结果？我正在尝试将我的文本分类结果与文献中的其他方法进行比较，但他们使用错误率而不是准确性，我找不到确切的定义/方程式来找到我的方法的错误率。

标签： machine-learningclassification

对于分类，您的输出是离散的（就像您将项目放入桶中一样），因此准确度有一个非常简单的定义：

准确率=（#分类正确）/（#分类总数）

错误率同样简单：

错误率 = 1 - 准确度 = 1 - (#分类正确) / (#分类总数)

=（#分类错误）/（#分类总数）

请注意，对于具有连续输出的任务，事情要复杂得多。如果不是将项目放入桶中，而是要求模型将项目放在数轴上，那么准确性不再是“正确”和“错误”的问题，而是我的模型与正确的接近程度。这可能是平均接近度、中值接近度等。还有更复杂的度量，主要区别在于随着距离的增加，它们对距离的加权程度。也许偏离一点点比偏离很多点要好得多，因此均方根误差测量是合适的。另一方面，无论是少了一点还是少了很多，多于一点的偏离都可能是可怕的，

要回答您问题的最后一部分：在离散情况下，为什么要选择准确性与误差？光学是一回事：“99% 准确”与“有 1% 的错误率”发出不同的心理信息。此外，准确度从 99% 提高到 99.9% 意味着准确度提高了 1%，但误差从 1% 降低到 0.1% 意味着误差降低了 90%，即使两者表达的是相同的真实世界改变。

否则，可能是个人喜好或写作风格。

编辑：您可能也对统计堆栈交换上的这篇文章感兴趣

machine-learning - 分类中错误率的定义以及为什么一些研究人员使用错误率而不是准确率

问题描述

解决方案

推荐阅读