python - 高阶类别重叠分析
问题描述
我正在尝试分析数据集的类别重叠,以最终确定对数据进行分类的最佳方式,以尽量减少用于描述数据集的类别数量。
迄今为止的努力:
我对 R 和 python 比较陌生,并且在 Excel 中做了很多这些工作。
- 按照类别重叠分析问题中的建议,我已经能够推导出一个矩阵来分析 1° 的重叠(即每对类别重叠的#items)。
- 对矩阵进行反透视以得出一个输出,该输出可用于分析每对类别的重叠并识别存在 1° 重叠的重复。通过这个分析,我能够识别出 300 个重复的 1° 类别重叠,这些重叠可以解析为 118 个独特的类别。
挑战:
- 我正在努力有效地分析高阶分类重叠并识别独立的 ItemCodes
谢谢!
示例以更好地说明我在尝试实现时遇到的困难。
数据片段
Category, ItemCode
G0617,5410.001
G0617,5410.006
G0617,5410.903
...
G0080,5410.001
...
G0419,5410.001
...
G0532,5410.001
G0532,5410.903
...
G0616,5410.006
...
G0659,5410.001
G0659,5410.903
...
G0846,5410.001
...
Gtest,5410.903
Gtest,5410.006
理想输出
category|equivalent categories|subsumed categories|independent item_code|duplicate category
G0080|||5410.001|
G0419|G0080|||TRUE
G0532||G0080|5410.903|
G0616|||5410.006|
G0617|G0532,G0616;G0080,Gtest;G0532,Gtest|G0080,G0419,G0532,G0616,G0659,G0846||
G0659|G0532|G0080|5410.903|TRUE
G0846|G0080|||TRUE
Gtest||G0616|5410.903|
“重复类别”列将偏向具有较小 # 的类别 ID。
(即类别完全相同的情况下,ID较高的类别将被标记为ID最小的类别的副本。本例中,G0419和G0846都被标记为G0080的副本)
解决方案
推荐阅读
- ios - Cordova UIWebView API 不推荐使用的 API 使用
- javascript - 如何将 url 数组查询转换为 Javascript 中的对象
- javascript - 搜索树状数据
- sql - 计算日期之间的差异,不包括周末
- c# - 使用 IL Emit 从 IL 堆栈顶部获取价值
- java - 字符文字错误中的字符过多
- python - 检查熊猫数据框的一列是否包含不同列的每一行的子字符串?
- powershell - 使用多个短语的 Exchange 2013 电子邮件搜索
- php - 如何使用 Jquery 或 Ajax 从数据库加载更多内容
- sql - 从 SQL 输出中去除空的 RTF 注释