首页 > 解决方案 > 分类数据中的异常值?

问题描述

我无法找到在分类数据中查找异常值的解决方案。我的数据由行的组合组成。我想标记某些组合不同的异常值。在上面指定的问题中,我无法将数据聚类为非异常数据行,异常行由相同的频率组成。我的数据看起来像这样->

      c1 c2 c3  c4
row1-> A  B  C ,D
row2-> A  B  C  D, 
row3-> A  D  C ,G
row4-> NU D  E  G,
row6-> NU D  E  X  

请提出一个有效的逻辑来解决问题。我还尝试根据频率分布数据,但我无法分配阈值,因为我无法找到将数据视为异常值的值。提供一种查找阈值的方法也可以提供帮助。

标签: pythondata-sciencedata-analysisoutliers

解决方案


分类数据没有异常值检测方法。在这种情况下,这个概念毫无意义。你可能会这样想:

您有 10 个样本,其中 9 位女性和 1 位男性。您可能认为男性是异常值,这只是您样本的组成,而不是异常值。

为了存在异常值,必须对项目之间的距离进行度量。看看这个以获取更多信息。

请提出一个有效的逻辑来解决问题。我还尝试根据频率分布数据,但我无法分配阈值,因为我无法找到将数据视为异常值的值。提供一种查找阈值的方法也可以提供帮助。

一个解决方案可能是value_counts你的列,这样你就有了每个元素的频率。


推荐阅读