首页 > 技术文章 > 数据挖掘概念与技术-第2章

shujuchoupijiang 2021-01-18 23:54 原文

【导读】今天我们继续以《数据挖掘概念与技术》(机械工业出版社,作者:Jiawei Han;Micheline Kamber;翻译:范明 / 孟小峰)一书为基础,配合Python代码给大家介绍数据属性、度量和基本统计描述图形。今天我们所涉及的内容依然非常基础,但却是后续不断会用到的一些概念和知识。笔者也将书中内容提炼成了层次更加清晰的思维导图, 并在jupyter notebook 中使用python书写了对应代码。你可以在我们的公众号"数据臭皮匠" 中回复"第二章xmind", 获取xmind格式的思维导图。回复"第二章代码",获取本文的jupyter代码
1、数据属性
书中称数据属性。分为标称属性、序数属性、数值属性。尽管每个出处的叫法可能不一样,但其实就是我们很熟悉的数据分类的概念,下面大家可以感受下
标称属性
类别型属性,不同类别间无法比较顺序, 如:职业类别, 颜色类别等
 
二元属性
只有两个类别, 0表示属性不出现, 1表示出现 如,是否抽烟等
 
对称的二元属性
两种状态有相同的价值,携带相同的权重,如性别的男女属于对称的二元属性(一般 标识性别时男为1,女为0)
 
非对称的二元属性
两种状态有着不一样的权重, 如艾滋病病毒化验结果,1 为阳性,0 为阴性,通常使用1表示重要的状态(HIV阳性), 另一个用0表示(HIV阴性)
 
序数属性
可以排先后顺序, 单元素之间的差值无意义 如, 大中小, 很满意, 满意, 中性,不满意等
 
区间标度属性
先后顺序, 差值都有意义, 但倍数无意义的属性, 如温度,可以说10度比5度高5度, 但无法说10度是5度的2倍, 因为0度不是表示没有温度。
 
比率标度属性
具有固定零点的数值属性,这时候,先后排序,差值,倍数都是有意义的。如重量, 速度等(速度4m/s 是2m/s 的两倍
2、数值的中心趋势度量
算术均值
令x1,x2... xn 为某一属性的n个观测值, 其均值为:
 
(x1+x2+...+xn)/n
 
加权平均
对于i = 1,2,.... n , 每个值xi 可以与一个权重wi 相关联,这时可以计算加权平均数:
 
(w1x1+w2x2+...+wnxn)/(w1+w2+...+wn)
 
截尾平均
截尾均值为丢弃高低极端值后的均值, 如公司的平均工资可能被几个高收入的经理拉高, 截尾均值能够抵消少数异常值的影响, 如计算平均工资时, 可以在计算均值之前先去掉前后2%(比例自己定义,但应避免截去太大比例, 因为会丢失太多信息)
 
中位数
先将N个数值按顺序排列, 中间的那个值就是中位数, 如果N为奇数,中位数为该有序集的中间值, 如果N为偶数, 一般取中间两个值的均值,中位数可以避免极端值对均值的影响, 一般收入中位数比收入均值更能代表总体收入水平
 
众数
数据集的众数是指出现最频繁的值, 可以对定性和定量属性确定众数
 
中列数
中列数是数据最大值和最小值的均值, 即(max() + min())/2
3、数据的分散程度度量
极差
设x1,x2...xn 为一个集合, 该集合的极差为最大值与最小值之差
 
四分位数
有三个点,将数据划分成相同大小的4个数据集合, 所以第一个四分位数Q1为第25%处,第二个百分位数Q2为50%处, 第三个分位数Q3为第75%处
 
四分位数极差
Q3-Q1 即, 第三个四分位数与第一个四分位数的差值
 
五数概括
由min, Q1,median, Q3,max 组成
即, 最小值, 四分位数Q1, 中位数,四分位数Q3和最大值组成
 
盒图
盒的端点在四分位上(Q1,Q3) , 中位数用盒内的线标记, 盒外的两条胡须延伸到最大值和最小值, 如果最大值比Q3大1.5倍的IQR(Q3-Q1) , 胡须延伸至1.5被IQR处, 最小值小于Q1 的1.5倍IQR, 向下的胡须延伸至1.5被IQR处, 超过胡须的点,单独的绘出(一般被认为离群点)
 
标准差和方差
标准差是方差开根号的结果, 两者都可以指出数据分布的离散程度, 低标准差意味着数据更靠近均值, 高标准差意味着数据散布在较大的值域中。当数据集中数值完全一样时, 标准差为0, 否则标准差大于0 ,重要的是, 可以证明至少(1-1/k^2) * 100% 的观测值不超过k个标准差。
4、基本统计描述图形
Q-Q分位图
Q-Q分位图一般有两种用途。
1、检验一列数据是否符合某一分布
2、检验两列是否同分布
4.4 散点图
关注公众号:数据臭皮匠;获得更多精彩内容
 

作者:范小匠

审核:灰灰匠

编辑:森匠

推荐阅读