首页 > 技术文章 > 数据分析知识体系学习

mokoaxx 2020-08-04 16:18 原文

定义:数据分析是指有针对性的收集、加工、整理数据,并采用统计、挖掘技术分析和解释数据。数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。

数据:定量(金额,数量等)/定性(性别,名称等);定量数据可以继续划分:定序数据(Ordinal,A等B等C等)、定距数据(Interval,可以作加减,不能作乘除的如温度)与定比数据(Ratio,人数,身高等)

 

 

商业智能(Business intelligence,BI )泛指用于业务分析的技术和工具,通过获取、处理原始数据,将其转化为有价值的信息指导商业行动。维基百科定义为一个组织将所有资源转化为认知的能力。

数据科学(data science)专注于从大量原始和结构化数据中找到切实可行的见解。该领域主要注重发掘我们没有意识到我们还不清楚的事情的答案。它结合了诸多领域中的理论和技术,包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。

虽然数据分析师和数据科学家都与数据打交道,但主要的区别在于他们如何处理数据。数据分析师检查大型数据集,以确定趋势、开发图表和创建可视化表示,以帮助企业做出更多的战略决策。另一方面,数据科学家使用原型、算法、预测模型和自定义分析设计和构建新的数据建模和生产流程。

数据科学家、数据工程师和软件工程师技能图谱:

 

 

数据分析可以帮助我们解决的问题:“发生了什么”、“为什么会发生”以及“未来可能发生什么”的分析,帮助确定可以采取的措施,也就是:驱动行动。

数据分析的6个步骤:

1、明确目的:这次分析要解决什么问题,达成什么业务目标

业务理解    熟悉行业知识、公司业务及流程。首先我们要明白我们业务的商业模式是怎么样的?即我们通过什么样的方式发生关系并最终产生什么样的商业价值。其次我们要了解我们商业模式的核心组成要素,例如我们的客户细分收入来源关键业务核心的资源成本的结构等等。除此之外我们要对核心的环境因素有所了解,例如宏观经济、市场影响、行业趋势等等。

 

2、确定分析思路和框架:

从哪些角度进行分析,采用哪些分析指标。在梳理分析思路的时候,将常见的思维模型应用与分析,能够帮我们更加清晰的理解背后的逻辑线索,做到”不重不漏“(MECE)。常见的思维模型有:结构化思维模型、时间模型、逻辑演绎模型、重要性思维模型。还有很多经典分析模型如:SWOT分析模型、STP分析模型、RATER指数模型。思维模型就是我们对客观世界的一种主观抽象描述,通过思维模型来分析问题,从而更为准确地找到解决问题的方法。

1)结构化模型  以事物的结构为思考对象,来引导思维、表达和解决问题的一种思考方法。例如麦肯锡的金字塔原理,5W2H七要素分析。

 

 

结构化思维是指一个人在面对工作任务或者难题时能从多个侧面进行思考,深刻分析导致 问题出现的原因,系统制定行动方案,并采取恰当的手段使工作得以高效率开展,取得高绩效。

 

 

MECE原则,Mutually Exclusive Collectively Exhaustive,中文意思是“相互独立,完全穷尽”。也就是对于一个重大的议题,能够做到不重叠、不遗漏的分类,而且能够借此有效把握问题的核心,并解决问题的方法。

2)时间模型  按照事物发展的时间线索,来进行分析。例如用户行为5阶段模型:需求的产生->信息收集->方案比较->购买决策->购买行为。

3)逻辑演绎模型 (三段标准式演绎形式:大前提,小前提,结论。或者麦肯锡七步分析法又称“七步分析法”是麦肯锡公司根据他们做过的大量案例,总结出的一套对商业机遇的分析方法。它是一种在实际运用中,对新创公司及成熟公司都很重要的思维、工作方法。)

 

 

 逻辑树分析法 将问题的所有子问题分层罗列,从最高层开始,并逐步向下扩展。

 

 

 4)重要性思维  企业资源是有限的,需要把资源用在刀刃上。消费者的关注点有优先级,做好消费者关注的才能打动消费者。例如,四象限分析法提倡人们应有重点地把主要的精力和时间集中地放在处理那些重要但不紧急的工作上,这样可以做到未雨绸缪,防患于未然。

 

 

 5)经典思维模型  

  • 德尔菲法:一种高效重要的判断预测工具

  • 六顶思考帽:有效实用的决策与沟通工具

  • KT决策法:最负盛名的决策模型

  • 头脑风暴法:激发团队创新的有效决策工具

  • 垃圾桶模型:一种企业内部的决策制定模式

  • 5W2H分析法:一种调查研究和思考问题的有效办法

  • 决策树分析法:现代管理决策者常用的有效工具

  • 综摄法:开发潜在创造力的一种创新方法

  • 戈登法:适用自由联想的技术创新技法

  • 奥斯本检核表法:创造技法之母,最著名、最典型的检核提问型创新法

  • 黄金思维圈法则

  • STAR原则

分析模型是对客观事物或现象的一种描述。为了分析其相互作用机制,揭示内部规律,可根据理论推导,或对观测数据的分析,或依据实践经验,设计一种模型来代表所研究的对象。经典的分析模型一般都是以营销、管理等为理论基础的。

 

1)战略与组织

  • SWOT分析:战略规划的经典分析工具

  • PEST分析:组织外部宏观环境分析工具

  • BCG矩阵法:制定公司层战略最流行的工具

  • GE矩阵:企业決定发展战略的分析工具

  • 定向政策矩阵:战略业务组合计划分析工具

  • IE矩阵:标识企业分布地位的分析工具

  • 竞争态势矩阵:企业战略制定提供竞争优势的分析工具

  • 麦肯锡三层面分析:企业设计战略规划、开拓增长的有效工具

  • 波特五力分析:行业竞争战略最流行的分析工具

  • 战略集团分析法:行业内企业竞争格局分析工具

  • 战略钟模型:企业竞争战略选择分析工具

  • 核心竞争力分析:分析企业有效竞争和成长的重要工具

  • 波特价值链分析模型:寻求确定企业竞争优势的分析工具

  • 利益相关者分析:战略制定和战略评价分析工具

  • PIMS分析法:有效的战略评价分析工具

  • SPACE矩阵:企业外部环境及战略组合分析工具

  • QSPM矩阵:战略决策阶段重要分析工具

  • 三四规则矩阵:成熟市场中企业竞争地位分析工具

  • 7S模型:组织绩效与战略适应的分析工具20.3C战略三角模型:经典的营销战略管理工具


2)营销服务

  • STP分析:现代营销战略的核心分析工具

  • 4Ps营销组合模型:制定市场战略最经典的营销理论工具

  • 产品生命周期模型:描述产品和市场运作方法的有力工具

  • 安索夫矩阵:应用最广泛的营销分析工具之一

  • 服务质量差距模型:服务质量简单有效的分析工具

  • 推销方格理论:直观有效的销售分析工具

  • 哈夫模型:最有效的计算商圈的分析工具之一

  • 服务金三角:服务组织管理的基石

  • CS战略:企业提高市场占有率的有力工具

  • SPIN销售法:系统化挖掘客户需求的销售工具

  • 营销战略新三角模型:战略业务架构分析工具

  • 服务利润链:服务管理最经典、最有效的分析工具

  • 满意镜:提高顾客满意与员工满意的工具

  • 顾客金字塔模型:有效的顾客细分管理工具

  • 植田T理论:典型的竞争性理论策略工具


3)人力资源

  • 平衡计分卡:最具影响力的战略绩效管理工具

  • 360度绩效考核:推进员工行为改变最有效的工具之一

  • KPI:国际通行的企业经营绩效成果测量和战略目标管理的工具

  • 3P模型:实施企业人力资源战略化管理的有效工具

  • 职位分析问卷法:最普遍和流行的人员导向职务分析系统

  • 关键事件技术:识别工作绩效的关键性因素的工作分析方法

  • 贝尔宾团队角色理论:目前最权威、应用最广的团队理论

  • 盖洛普Q12测评法:最经典的员工敬业度测评工具

  • 绩效棱柱模型:新颖的绩效测量和管理分析工具

  • Lifo管理系统:美国应用最广、发展最早的行为风格行为系统之一

  • 宽带薪酬设计:一种新的薪酬管理系统及操作流程

  • 霍兰德职业兴趣理论:通用的职业兴趣测验工具

  • 胜任素质模型:人力资源战略和组织整体战略紧密结合的重要工具

  • 职业锚:职业测评运用最广泛、最有效的工具之一

  • 海氏工作评价系统:目前国际上最为流行、使用最为广泛的岗位评估工具


4)质量及生产管理

  • TPM:生产改善过程中的重要工具之一

  • TQM:一项持续变革的有效管理体系

  • 定置管理:强化现场管理和谋求系统改善的科学管理方法

  • 5S现场管理法:现场科学管理的基础工具

  • 六西格玛:世界最先进的质量管理法

  • JIT生产方式:使生产有效进行的新型生产方式

  • QFD法:一种顾客驱动的先进质量管理应用技术

  • 田口方法:质量管理利器、企业技术创新不可或缺的工具

  • 甘特图:最常用的项目控制管理的有效工具

  • OPT:改善生产管理技术的新方式

  • PDCA:循环有效控制管理过程和工作质量的工具

  • AUDIT法:保证产品质量的先进质量管理控制方法

  • 大规模定制:21世纪最重要的、最具竞争优势的生产模式

  • 朱兰三步曲:质量战略思想和管理的有力武器

  • 零缺陷管理法:企业质量管理方法的又一次革命

  • QC七大手法:一组对质量管理活动的数据进行客观分析的有力工具

  • 丰田生产方式:一套系统完整的生产管理方式


5)财务管理工具

  • 阿特曼Z-score模型:最著名的预测企业破产的方法

  • ABC成本法:企业控制成本的有力工具

  • 杜邦分析法:企业业绩评价体系中最为有效的工具之一

  • 比率分析法:财务分析最基本的工具

  • 经济附加值:当今最热门的财务创意

  • 财务分析雷达图:企业经济效益综合分析工具

  • 零基预算法:对企业的预算决策进行控制的有效工具

  • 净现值法:企业投资决策中最基本、最常用的一种方法

  • 沃尔评分法:对企业财务信用能力综合评价的方法

  • 本量利分析:实施目标成本管理的一个重要工具


6)项目与物流

  • SCOR模型:第一个标准的供应链流程参考模型,供应链一体化的得力工具
  • ECR系统:一种新型的供应链管理策略
  • 快速反应策略:企业实现供应链竞争优势的有效管理工具
  • 绿色供应链管理:可持续发展的供应链管理模式
  • 责任矩阵:项目计划十分重要的工具
  • 关键路径法:项目管理中应用最为广泛的方法之一
  • 逻辑框架法:项目质量评价的综合评价方法
  • PERT网络分析法:有效的项目进度管理工具
  • VMI模型:国际前沿的供应链库存管理模式
  • 工作分解结构:项目管理众多工具中最有价值的工具之一

7)常见的分析模型

a)SWOT分析模型   用来确定企业自身的竞争优势、竞争劣势、机会和威胁,从而将公司的战略与公司内部资源、外部环境 有机地结合起来的一种科学的分析方法。

 

 

b)STP分析   客户细分(Segmentation)、目标客户选择(Targeting)、目标客户定位(Positioning)。

c)经典的客户满意度模型    RATER指数模型、KANO模型。例如:RATER指数是全美最权威的客户服务研究机构美国论坛公司投入数百名调查研究人员用近十年的时间对全美零售业、信用卡、银行、制造、保险、服务维修等十四个行业的近万名客户服务人员和这些行业的客户进行了细致深入的调查研究,发现一个可以有效衡量客户服务质量的RATER指数。

 

 

d)PEST分析模型   是指宏观环境的分析模型,宏观环境又称一般环境,是指一切影响行业和企业的宏观因素。对宏观环境因素作分析,不同行业和企业根据自身特点和经营需要,分析的具体内容会有差异,但一般都应对政治(Political)、经济(Economic)、社会(Social)和技术(Technological)这四大类影响企业的主要外部环境因素进行分析。简单而言,称之为PEST分析法。

 

 

e)波特五力分析模型  是迈克尔·波特(Michael Porter)于80年代初提出,对企业战略制定产生全球性的深远影响。用于竞争战略的分析,可以有效的分析客户的竞争环境。五力分别是:供应商的议价能力、购买者的议价能力、潜在竞争者进入的能力、替代品的替代能力、行业内竞争者现在的竞争能力。五种力量的不同组合变化 最终影响行业利润潜力变化。

 

 

 

f)经典营销管理模型4P、4C、4S、4R、4V、4I  以满足市场需求为目标的4P理论,以追求顾客满意为目标的4C理论,以建立顾客忠诚为目标的4R理论等。

 

 

g)用户行为理论

h)AARRR模型  Acquisition、Activation、Retention、Revenue、Refer这五个单词的缩写,分别对应用户生命周期中的5个重要环节:获取用户、提高用户活跃度、提高用户留存率、获取收入、自传播。AARRR模型因其掠夺式的增长方式也被称为海盗模型,同时它也是一个典型的漏斗模型可以用来评估连续的业务流程节点转化率。通过该模型可以有针对性的对出现问题的重要节点进行优化,达到提升ROI的目的。

 

 

 指标体系设计  指标体系的设计是一个业务数据化的过程。好的指标设计能够抽象目标具体化,具有直接实践意义。

指标是指将业务单元精分后量化的度量值,譬如:DAU、订单数、金额等。当然,原子指标还会基于维度、修饰词、统计口径而构建出派生指标。指标的核心意义是它使得业务目标可描述、可度量、可拆解。好的数据指标是比较性的,可以是一个比率。因为比率的可操作性强、天生比较性指标、适用于比较各种因素间的相生和相克。例如:“本周转化率比上周高0.5个百分点”显然比“转化率为2%”更有意义。会计和金融分析师仅需迅速查看几个比率就能对一个公司的基本状况做出判断。例如:市盈率、毛利率、利润率,等等。好的数据指标是简单易懂的。如果人们不能容易记住或讨论某个指标,那么通过改变它来改变公司的作为将会十分困难。好的数据指标可以衡量当前业务的真实情况。好的数据指标会改变行为。这是最重要的评判标准。

随着数据量的增大,数据指标也会越来越多,即使是同样的命名,但定义口径却不一致。这对于各部门理解难度大,同时也造成了重复计算存储的资源浪费。阿里OneData指标规范,以维度建模作为理论基础,构建总线矩阵,定义业务域、数据域、业务过程、度量/原子指标、维度、维度属性、修饰词、修饰类型、时间周期、派生指标等,帮助我们形成统一数据标准。

第一关键指标(OMTM:One Metric That Matters)原则就是在当前阶段高于一切,你需要集中全部注意力的数字。所在商业领域决定了你应关注的指标。常见商业模式分类有电商类、内容类、社区类、软件工具类、游戏类。电商类的指标常见分类:

 

 

 

  • PV(page view):即页面浏览量,用户每1次对网站中的每个网页访问均被记录1次。用户对同一页面的多次访问,访问量累计。在一定统计周期内用户每次刷新网页一次也被计算一次

  • UV(unique visitor):即独立访客,访问网站的一台电脑客户端为一个访客。

  • DAU(Daily Active Users)日活跃用户:每日登陆过的用户数。

  • WAU(Weekly Active Users)周活跃用户:七天内登陆过的用户数。

  • MAU(Monthly Active Users)月活跃用户:30天内登陆过的用户数。

  • 收藏人数:统计日期内,通过该渠道访问该商品并收藏该商品的去重买家人数。

  • 收藏次数:统计时间内,宝贝被来访者收藏的次数,一件宝贝被同一个人收藏多次记为多次。

  • 加购人数:统计时间内,访客将商品加入购物车的访客去重数。

  • 加购次数:选定周期下,该行业下商品物品被加入购物车的次数。

  • 支付金额:买家拍下后支付给的金额,未剔除售中售后退款金额,预售阶段付款在付清尾款当天才计入内,货到付款订单确认收货时计入内。

  • 支付子订单数:也被称为支付笔数,比如某个买家在某个店铺购买了多个宝贝一起下单支付,订单后台会展现每个产品每个SKU粒度下会有一条记录,这个就是一个子订单。

  • 支付转化率:统计时间内,支付买家数/访客数,即来访客户转化为支付买家的比例。

  • 店内搜索次数:在所选的终端(PC或无线)上,在店铺内搜索关键词的次数,一个关键词被同一个人搜索多次,记为多次。关键词的一次搜索后多次翻页查看搜索结果,搜索次数记为一次。

游戏类:

  • 用户类:平均同时在线人数(ACU)、最高同时在线人数(PCU)活跃用户数(包括日/周/月活跃)、留存率(次日/三日/七日/月)、活跃用户、每日新增用户数、每日流失人数。

  • 付费类:活跃付费账户(APA)、付费率(PUP)、每位用户平均收入 ARPU(Average Revenue Per User)

  • 游戏类:游戏道具消费排行、比例,平均在线时间(人均、最高、最低),游戏用户等级分布,游戏用户持有虚拟货币量(人均、最高、最低)

  • 推广类:下载量(日、周、月),注册用户量、激活率(日、周)。

 

 

 

来源于阿里技术,作者徐强


总结与体会:首次接触这么多专业名词有点炸,商业真是个复杂的东西,一套一套的,非经管类的觉得很蒙蔽,想找个数据分析岗还得回炉重铸几年的样子呢。数据分析要结合业务来实施、产品更是如此,在熟悉业务的基础上熟练掌握模型并能应用于分析当中。其实非常好奇各大互联网的盈利模式,视频、社交网站是开会员,接广告;平台呢比如淘宝商家是不是会交钱来着,官方旗舰入驻费;搜索引擎都听说过的,广告竞价排名;游戏、直播打赏就那首歌“我还是充钱那个少年没有一丝丝改变”。互联网不像实体企业那样存在原材料等开支,主要支出应该就是程序员工资,消耗的是人。互联网的收入来源就是流量,如何优雅地将流量变现似乎并没有很经典的栗子,豆瓣,B站这种有情怀的也不能靠用爱发电活下去。那Github在没有被微软收购之前又是怎么活了这么多年的呢。

 

推荐阅读