首页 > 技术文章 > python数据探索

yoyowin 2020-07-22 13:57 原文

数据质量分析 
脏数据包括:缺失值;异常值;不一致的值;重复数据及含有特殊符号的数据; 
1.缺失值处理 
统计缺失率,缺失数 
2.异常值处理 
(1)简单统计量分析 
(2)3Q原则 
正态分布情况下,小概率事件为异常值 
不服从正太分布的,可以用原离平均值多少倍标准差来分析 
(3)箱线图分析 
使用describe()描述

 

主要数据探索函数 
1.Pandas常用函数总结

 

导入数据

 

导出数据

查看、检查数据

数据选取

数据清理

    dataframe处理NAN值

    data_3=data_3.where(data_3.notnull(),0)

   dataframe类型转换

    data_3['Var5']=data_3['Var5'].astype(float)

数据处理:Filter 、Sort 和 GroupBy

 
查看具体有哪几个值
ids = [1,4,3,3,4,2,3,4,5,6,1]
news_ids = list(set(ids))
news_ids.sort(ids.index)

 

数据合并、数据统计 

2.拓展统计特征函数

累计统计特征函数

    • cumsum :依次给出前1-n个数的和
    • cumprod: 依次给出前1-n个数的积
    • cummax: 依次给出前1-n个数的最大值
    • cummin: 依次给出前1-n个数的最小值
    • rolling_sum(): 总和(按列)
    • rolling_mean(): 算数平均值
    • rolling_var(): 方差
    • rolling_std(): 标准差
    • rolling_corr(): 相关系数矩阵
    • rolling_cov(): 协方差矩阵
    • rolling_skew():偏度(三阶矩)
    • rolling_kurt(): 峰度(四阶矩)
       

参考:https://www.cnblogs.com/yaowentao/p/8882386.html

推荐阅读