首页 > 解决方案 > 高阶类别重叠分析

问题描述

我正在尝试分析数据集的类别重叠,以最终确定对数据进行分类的最佳方式,以尽量减少用于描述数据集的类别数量。

迄今为止的努力:

我对 R 和 python 比较陌生,并且在 Excel 中做了很多这些工作。

挑战:

谢谢!


示例以更好地说明我在尝试实现时遇到的困难。

数据片段

在工作表中查看的数据片段

Category, ItemCode
G0617,5410.001
G0617,5410.006
G0617,5410.903
...
G0080,5410.001
...
G0419,5410.001
...
G0532,5410.001
G0532,5410.903
...
G0616,5410.006
...
G0659,5410.001
G0659,5410.903
...
G0846,5410.001
...
Gtest,5410.903
Gtest,5410.006

理想输出

在工作表中查看的理想输出

category|equivalent categories|subsumed categories|independent item_code|duplicate category
G0080|||5410.001|
G0419|G0080|||TRUE
G0532||G0080|5410.903|
G0616|||5410.006|
G0617|G0532,G0616;G0080,Gtest;G0532,Gtest|G0080,G0419,G0532,G0616,G0659,G0846||
G0659|G0532|G0080|5410.903|TRUE
G0846|G0080|||TRUE
Gtest||G0616|5410.903|

“重复类别”列将偏向具有较小 # 的类别 ID。

(即类别完全相同的情况下,ID较高的类别将被标记为ID最小的类别的副本。本例中,G0419和G0846都被标记为G0080的副本)

标签: pythonrexcelvbacategorical-data

解决方案


推荐阅读