首页 > 技术文章 > 数据挖掘概念与技术(韩家伟)阅读笔记6--数据规约

zjh225901 2016-11-03 14:08 原文

1.数据规约的意义:
      对海量的而数据进行分析和挖掘,需要大量的时间,使得这种分析可能不现实或不可行。数据规约对数据集的规约表示进行分析,这样需要分析的数据少得多,但并不影响数据挖掘的效果。

2.数据规约的策略

  a.数据立方体聚集:类似于前面的数据聚集,对数据立方体进行上卷和下钻,在不同抽象层次进行分析(例:年,季度,月)。

  定义;基本方体:最低抽象层次;顶点方体;最高抽象方体。每个较高抽象层次进一步减少数据的规模。

  b.属性子集选择:检测并删除不想关,弱相关或冗余的属性和维。基本方法:逐步向前选择:由空的初始规约集,逐步添加好的属性到规约中。

    逐步向后删除:逐步删除整个属性集中最差的。

    向前选择和向后删除结合:

    决策树归纳:每个非叶子节点表示一个属性的选择,每个叶子节点表示一个类预测。最终的结果是将属性按照需求划分为好的或坏的。

  c.维度规约:使用数据编码和变换,规约数据。

    方法:a.小波变换 原理:通过小波变换将原始数据向量X={xi,x2...}(对应元祖各个属性),变换成不同数值的数值小波系数向量Y。然后按照某种规则截取Y,仅保存一部分最强的小波系数。

    b.主成分分析(PCA)

        计算方法:计算协方差矩阵:对于n维数据{x,y,z},则协方差矩阵为

                        

                     其中:协方差计算方式为:

                       

                       然后求取协方差矩阵的特征值和特征向量。根据一定放入规则选取特征值较大的特征向量组成模式矢量。然后经过变换的到将维后的数据。

  d.数值规约

    (1)回归或对数线性模型

        多元线性回归:

        原理:通过模型建立属性间的关系,并通过回归方程等进行拟合,求取相关的参数,这样在存取的时候只需要存取相关的模型参数,而不用存取实际数据,从而减少数据量。

        对数线性模型:

              原理:主要针对于近似离散的多维数据进行概率分布。详解见后面。

    (2)直方图

        用一个连续的值域代替一个值作为一个桶的。

         桶和属性的划分:

           a.等宽。每个桶的宽度区间是一样的。

           b.等频。每个桶的高度是一样的。

           c.V最优。在桶的个数一定的条件下,具有最小方差的直方图即为V最优直方图。其中,直方图的方差是每个桶代表的原来值的加权和,其中权等于桶中值的个数。

            d.MaxDiff。最大化差异度量。考虑每个相邻值(相邻值)之间的差,每个桶的属性值边界是x-1个最大差的对。x为用户指定的桶数。

    (3)聚类

               对数据对象进行划分成群或簇,规则是是每个簇内数据对象尽量相似,簇之间的对象尽量相异。然后使用簇来替换原始的簇内数据对象。

    (4)抽样

          a.s个样本无放回简单随机抽样

                            b.s个样本有放回简单随机抽样。

           c.聚类抽样。先将N个元祖分成M个互补相交的簇,然后对其进行S个簇的简单随机抽样。

          d.分层抽样。实际相当于先对原始数据进行直方图划分,然后对每一个桶进行抽样,在综合起来。

    抽样规约的优点:得到样本的花费正比于样本集的大小,而不是总数据集的大小。抽样的复杂度仅随数据的维数成线性增长,其他的更多随数据的维数成指数增长。

 

     

    

推荐阅读