数据分析高级基础概念

数据分析的步骤

1.明确分析目的

分析的目的可分为三类:

1
2
3
对现状进行描述性分析,给决策者提供未来发展方向的依据
原因分析,弄清造成某种结果的原因
为事物将来的发展趋势做出预测

通常在明确分析目的后,还有一个十分重要的环节,尽管它没有出现在分析流程图中,然而却异常重要。即数据分析详细流程图,它通常是“数据分析一般步骤”中“数据处理”和“数据分析”这两个步骤的详细操作和分析流程。

2.数据采集

数据采集方法多种多样,这里简要的说几种:公司内部数据、互联网爬取、报刊书籍、问卷调查、购买数据等等目前来看,整个的数据采集方式发展趋于网络采集。

3.数据处理

数据处理常用的方法有三种:数据清洗,数据加工,数据计算

4.数据分析

数据分析方法:

1
2
3
4
5
分类:
通常我们按照分析的目的或者按照分析的作用进行分类:
现状分析:对比、平均、综合评定(常用)……
原因分析:分组、结构、交叉、杜邦分析、漏斗图、聚类……
预测分析:回归、判别式分析、神经网络、决策树……

比较分析法

分类:静态与动态比较静态比较:同一时间,相同指标在不同总体间的比较,也叫横向比较,简称横比

动态比较:同一总体,相同指标在不同时期间的比较。也叫纵向比较,简称纵比

分组分析法

定义:

根据数据特征,按照一定的指标,把数据划分为不同的群组进行研究,以求揭示各群组间的内在联系和规律。

分组时必须遵循两个原则:穷尽原则和互斥原则。穷尽原则:总体中的每一个单位都应有组可归,或者说各分组的空间足以容纳总体所有的单位。互斥原则:在分组指标的限制下,总体中的任何一个单位只能归属与某一个组,而不能同时或可能归属与几个组。

重要的分组参数:

组限:各分组间的分界处被称为组限,一个组的最大值称为组上限,一个组的最小值称为组下限。

组距:组上限与组下限的差叫组距

组数:分组个数

分组的步骤:

  1. 组数确定这个完全依赖于数据分析师自己的经验了。有经验的数据分析师会根据数据本身特点给数据划分合理组数。
    . 确定组距一组数据中的最大值与最小值的差除以组数。即: (最大值-最小值)/组数
  2. 根据组距划分数据,使其各就各位。
结构分析法

被分析总体内的各部分与总体进行对比的分析方法,即部分数量除以总体数量,换句话说,部分占总体的比例,属于相对指标

平均分析法

通过计算平均数来反映总体在一定时间、地点条件下某一数量特征的一般水平。但由于其忽略了个体间可能存在的巨大差异,有时候并不一定反映出某一指标的一般水平。因此,很多时候平均分析法是不可取的。

交叉分析法

交叉分析法又称立体分析法,是在纵向分析法和横向分析法的基础上,从交叉、立体的角度出发,由浅入深、由低级到高级的一种分析方法

综合评价法

随着数据分析的广泛和深入的使用,我们遇到的问题越来越复杂,单靠对单一指标的分析越来越不能解决多指标问题。

人们通过实践总结,逐步形成了一系列运用多个指标对多个参评单位进行评价的方法,称之为综合评价法。综合评价法的本质是把多指标转化为一个能够反映综合情况的量(比如评分,通常不再是统计指标)来进行分析

步骤:

  1. 确定综合评价指标体系,即用哪些指标来评价一个对象。
  2. 收集数据,若有必要,进行标准化处理,比如归一化,以求消除量纲。
  3. 确定指标体系中各指标权重,以保证评价的科学性与公平性。
  4. 对各个指标的评价数值进行汇总计算,得出综合评价分值。
  5. 凭借分值排名并得出结论。

综合评价法的注意事项:

  1. 综合指标体系里面的各个指标不是让我们一个接个去评定,而是要同时完成。这种要求是为了消除互为相关的指标带来的错误评价结果
  1. 重要指标不要忘记加权。
  2. 结果不再是统计指标,仅仅是对评价对象的评分或排名。
  3. 对各指标下的数据要根据实际情况采取数据标准化。

归一化:

作用1:消除量纲,在多指标评价体系中,由于各评价指标的性质不同,通常具有不同的量纲和数量级。当各指标间的水平相差很大时,如果直接用原始指标值进行分析,就会突出数值较高的指标在综合分析中的作用,相对削弱数值水平较低指标的作用。因此,为了保证结果的可靠性,需要对原始指标数据进行标准化处理。

作用2:提升模型的收敛速度狭长的标量场经过标准化后变得比较圆,这样会大大提升计算的收敛速度。

权重:

1.要确定权重,首先要确定指标体系,这也就是综合评价的第一个步骤

2.通过以上指标体系收集数据,数据的收集是通过多个人力资源的专家填写下面表格实现的。

3.建立目标优化矩阵,进行权重确定

4.通过加权平均对表格进行综合计算

杜邦分析法

金字塔结构层层分析法,各层存在明确的因果关系,更多时候是严格的函数关系。

漏斗图分析法

漏斗图适用于业务流程比较规范、周期长、环节多的流程分析,通过漏斗各环节业务数据的比较,能够直观地发现和说明问题所在

几个常见的统计学概念

相对数与绝对数:

绝对数描述客观事物总体在一定时间和地点条件下的总规模,总水平的指标。相对数是指两个相关事物的比值

百分数和百分点:

百分数表示个体占总体的程度。百分点表示相同事物不同时期的增幅。

频数频率:

频数是绝对数,频率是相对数。频数指某种事物或现象在其所在总体出里出现的次数,频率,个体出现的总次数与总体出现的总次数的比值

比例和比率:

比例是个体数值在总体数值中的占比

比率是总体中各个体数值之间的对比

倍数与番数:

倍数是一个数除以另一个数所得的商。比如3是1.5的二倍

番数指的是某种事物总数的二的n次方倍

同比与环比:

同比是指与历史同时期进行比较得到的数值

环比是指与前一个统计期比较所得到的数值