首页 > 技术文章 > Python数据可视化实战 (附Python代码)

shujuchoupijiang 2021-01-24 08:33 原文

【导读】之前读过我们《数据挖掘概念与技术 第2章》的同学,可能还记得我们在文章的最后给大家分享过基本统计描述图形的代码实现,比如Q-Q分位图、直方图、散点图等等。数据可视化主要旨在借助于图形化手段,清晰有效地传达与沟通信息,也是数据分析师必备技能之一。后续我们会系统的给大家介绍这方面的基础知识,包括常用的数据可视化包以及常见可视化图形的代码实现方式等,请持续关注我们的公众号"数据臭皮匠"。今天我们接着《数据挖掘概念与技术 第2章》带大家更加深入的了解下可视化技术,部分可视化图笔者会给大家提供代码。你可以在公众号"数据臭皮匠"中回复"第二章2"来获取本文使用的代码和数据集
可视化技术简介
数据可视化分为:基于像素的可视化、几何投影可视化、基于图符的可视化、层次可视化技术、标签云和网络图
基于像素的可视化技术
通俗的讲,就是将某个维度的数据按照一定规则进行排序并用颜色来反映该数据的变化,比如按照升序排列,值越小,颜色越谈,然后我们同样应用这个维度及其排序规则,但用颜色深浅来反映另外一个维度的大小,从而查看两个维度的相关性。
如上图,四个图的数据都是按照顾客income(收入)递增顺序排列,但用颜色深浅分别表示income(收入)、credit_limit(信贷额度)、transaction_volume(成交量)和age(年龄)的大小。我们可以很容易观测到credit_limit随income增加而增加,收入处于中部区间的顾客成交量比较大,但年龄和收入并没有明显的相关性。
1.三维散点图
之前的文章中我们介绍的散点图通常是反映两个维度的简单关系。实际上我们可以增加更多维度的数据并用不用颜色或者形状表示,来查看更多维度数据之间的联系。
我们举个例子来画出三维散点图。例子中我们使用的iris数据集是由三种鸢尾花,各50组数据构成的数据集,每个样本包含4个特征,分别为萼片(sepals)的长和宽、花瓣(petals)的长和宽。下面我们来看下萼片长宽和花的种类关系
2.四维散点图
我们可以通过加上颜色来画出四维散点图
3.散点图矩阵
4.平行坐标图
基于图符的可视化技术
基于图符的可视化技术提到了切尔诺夫脸和人物线条画,笔者认为不太实用,这里就不做过多介绍了,有兴趣的同学可以看书研究下
1.切尔诺夫脸
2.人物线条画
层次可视化技术
1.矩形树图
矩形树图经常在分析股票时使用, 它能够很好的展示类别间的比例, 且可以包含子类别, 通俗的讲, 矩形树图是饼状图的高级版, 下面以全国GDP数据为例, 展示矩形树图的应用。
将数据转换成矩形树图需要的字典
接下来我们开始画图
画出来的矩形树图还可以交互,可以拿来当吹牛神器啦
2.词云
词云可以根据文本中词汇出现频率的高低来显示字体的大小, 还可以将词云展示成指定图片的形状,拿来当做PPT时的素材是不错的选择。
从词云中可以看到, 哪吒, 我们, 灵珠, 天尊 等词出现的频率很高, 这也符合我们观影时的体感。
关注公众号:数据臭皮匠;获得更多精彩内容
作者:范小匠
审核:灰灰匠
编辑:森匠

推荐阅读