源文件:有道云笔记 链接http://note.youdao.com/noteshare?id=4a5d306357317ee80a5415af19e00d0a
spss概括
1.1 Spss历史
SPSS是世界上最早的统计分析软件,由美国斯坦福大学的三位研究生Norman H. Nie、C. Hadlai (Tex) Hull 和 Dale H. Bent于1968年研究开发成功,同时成立了SPSS公司,并于1975年成立法人组织、在芝加哥组建了SPSS总部。
2009年7月28日,IBM公司宣布将用12亿美元现金收购统计分析软件提供商SPSS公司。如今SPSS的最新版本为25,而且更名为IBM SPSS Statistics。迄今,SPSS公司已有40余年的成长历史。(百度)
1.2 Spss特点
操作简便
界面非常友好,类似于windows的风格界面,类似于Excel布局的数据视图给初学者一种天然的亲切感。除了数据录入及部分命令程序等少数输入工作需要键盘键入外,大多数操作可通过鼠标拖曳、点击“菜单”、“按钮”和“对话框”来完成。可以说只要了解统计分析的原理,无需通晓统计方法的各种算法,即可得到需要的统计分析结果。
编程方便
强大的编程互动性,常见的统计方法,SPSS的命令语句、子命令及选择项的选择绝大部分由“对话框”的操作完成。因此,用户无需花大量时间记忆大量的命令、过程、选择项。
功能强大
涵盖主要的数据分析流程,例如数据获取、数据处理、数据分析、数据展现等数据分析流程环节能够快速实现。尤其是数据分析环节,SPSS提供了从简单的统计描述到复杂的多因素统计分析方法,比如数据的探索性分析、统计描述、列联表分析、二维相关、秩相关、方差分析、多元回归、生存分析、协方差分析、聚类分析、Logistic回归等。
数据兼容
能够读取及输出多种格式的文件。比如SPSS可以读取文本、Excel、Stata、SAS;把表格、图像导出
为word、excel、powerpoint、txt文本、pdf、html等格式文件。
模块组合
SPSS for Windows软件分为若干功能模块。用户可以根据自己的分析需要和计算机的实际配置情况灵活选择。
1.3 Spss安装
助教帮助安装
1.4 认识Spss
一、数据窗口
我们,Spss窗口和Excel窗口貌似很类似,但细细看来,还是有很大不同。整体来看,Spss窗口主要有两部分构成:
- 菜单栏
主要包括 “文件”、“编辑”、“查看”、“数据”、“转换”、“分析”、“直销”、“图形”、“实用程序”、“窗口”、“帮助” 11个菜单。其中 “数据”、“转换”、“分析”三个菜单最常用。
- 数据视图
顾名思义就是输入、编辑和显示数据的视图窗口。在Spss中每一行数据被称为一条记录,被称为个案,每一列代表一个特征,在Spss中被称为变量
- 变量视图
用于设置、定义变量属性的窗口。
可以设置或者查看变量的属性,例如“名称”、“类型”、“宽度”等信息
注意:在设置变量属性时,注意数据类型、数据测量和数据角色的设置,因为这三个很容易设置错。一旦设置错误,将会造成无法进行数据处理、或者数据分析;更可怕的是有时会导致出现错误的分析结果。整个数据窗口可以被保存,默认格式为sav。
二、输出窗口
输出窗口又叫结果查看器,主要用于输出数据分析结果或绘制的相关图表。
输出窗口分为两个部分,左边是由目录组成的导航窗口,右边为内容区,所显示内容与右边目录一一对应。我们可以对输出结果进行复制、编辑等操作。
输出窗口可以被保存,可以把分析结果或者图表保存以备随时查看。保存格式默认为sav。
spss数据处理
1.1 Spss历史
SPSS是世界上最早的统计分析软件,由美国斯坦福大学的三位研究生Norman H. Nie、C. Hadlai (Tex) Hull 和 Dale H. Bent于1968年研究开发成功,同时成立了SPSS公司,并于1975年成立法人组织、在芝加哥组建了SPSS总部。
2009年7月28日,IBM公司宣布将用12亿美元现金收购统计分析软件提供商SPSS公司。如今SPSS的最新版本为25,而且更名为IBM SPSS Statistics。迄今,SPSS公司已有40余年的成长历史。(百度)
1.2 Spss特点
操作简便
界面非常友好,类似于windows的风格界面,类似于Excel布局的数据视图给初学者一种天然的亲切感。除了数据录入及部分命令程序等少数输入工作需要键盘键入外,大多数操作可通过鼠标拖曳、点击“菜单”、“按钮”和“对话框”来完成。可以说只要了解统计分析的原理,无需通晓统计方法的各种算法,即可得到需要的统计分析结果。
编程方便
强大的编程互动性,常见的统计方法,SPSS的命令语句、子命令及选择项的选择绝大部分由“对话框”的操作完成。因此,用户无需花大量时间记忆大量的命令、过程、选择项。
功能强大
涵盖主要的数据分析流程,例如数据获取、数据处理、数据分析、数据展现等数据分析流程环节能够快速实现。尤其是数据分析环节,SPSS提供了从简单的统计描述到复杂的多因素统计分析方法,比如数据的探索性分析、统计描述、列联表分析、二维相关、秩相关、方差分析、多元回归、生存分析、协方差分析、聚类分析、Logistic回归等。
数据兼容
能够读取及输出多种格式的文件。比如SPSS可以读取文本、Excel、Stata、SAS;把表格、图像导出
为word、excel、powerpoint、txt文本、pdf、html等格式文件。
模块组合
SPSS for Windows软件分为若干功能模块。用户可以根据自己的分析需要和计算机的实际配置情况灵活选择。
1.3 Spss安装
助教帮助安装
1.4 认识Spss
一、数据窗口
我们,Spss窗口和Excel窗口貌似很类似,但细细看来,还是有很大不同。整体来看,Spss窗口主要有两部分构成:
- 菜单栏
主要包括 “文件”、“编辑”、“查看”、“数据”、“转换”、“分析”、“直销”、“图形”、“实用程序”、“窗口”、“帮助” 11个菜单。其中 “数据”、“转换”、“分析”三个菜单最常用。
- 数据视图
顾名思义就是输入、编辑和显示数据的视图窗口。在Spss中每一行数据被称为一条记录,被称为个案,每一列代表一个特征,在Spss中被称为变量
- 变量视图
用于设置、定义变量属性的窗口。
可以设置或者查看变量的属性,例如“名称”、“类型”、“宽度”等信息
注意:在设置变量属性时,注意数据类型、数据测量和数据角色的设置,因为这三个很容易设置错。一旦设置错误,将会造成无法进行数据处理、或者数据分析;更可怕的是有时会导致出现错误的分析结果。整个数据窗口可以被保存,默认格式为sav。
二、输出窗口
输出窗口又叫结果查看器,主要用于输出数据分析结果或绘制的相关图表。
输出窗口分为两个部分,左边是由目录组成的导航窗口,右边为内容区,所显示内容与右边目录一一对应。我们可以对输出结果进行复制、编辑等操作。
输出窗口可以被保存,可以把分析结果或者图表保存以备随时查看。保存格式默认为sav
描述性分析
常见数据分析的分类:
\1. 描述性数据分析
对所收集的数据进行分析,得出反映客观现象的各种数量特征的一种分析方法,主要分析方向为集中趋势分析、离散程度分析、频数分析等。描述性分析是所有继续数据分析的基础。
\2. 探索性数据分析
通过某些分析方法从大量的数据中发现未知有价值信息的过程。特点是不受分析模型和研究假设的限制,尽可能地寻找变量间的关联性,常见的分析方法有聚类、因子、对应分析等。
3.推断数据分析
通过样本数量特征对研究总体数量特征进行推断的过程。常见分析有相关分析、回归分析、假设检验等。
我们的课程主要集中于描述性数据分析和部分推断数据分析。
3.1 频率分析
主要分为两类:
3.1.1 分类变量频率分析
读入‘问卷调查.csv’文件,点击‘分析’菜单,选择‘描述统计’,此时右侧弹出子菜单,选择并点击‘频率’按钮,跳出如下对话框:
在左选择需要进行频率栏中的分类变量,然后点击转换按钮,待分析变量会自动跑到右边框内,然后点击确定就会得到分析结果:
如何理解有效百分比:
|有效值|/|总体|
还有很多其他变量,留作大家课下练着玩吧!
3.1.2 连续变量频率分析
step1: 完全和分类变量频率分析一致。
step2: 在‘频率’对话框中点击‘统计’按钮,弹出以下对话框:
在‘频率:统计对话框中,选择你所需的任意统计量,点击‘继续’。回到‘频率’对话框。点击‘确定’。生成下列图表。
接下来,让我们稍停步伐,看一看在‘频率:统计’对话框中的四个功能区,他们分别是‘百分位值‘、’集中趋势‘、’离散趋势‘、’分布特征‘;接下来我们逐一讲解:
百分位值:
有三个功能项,分别是四分位数、分割点、和百分位数。四分位数意思是用三个数据点把整体数据分成四等份,百分位数是用99个数据点把整体数据分成100等份。分割点功能可以实现整体数据的任意等分。
集中趋势:
主要有四个功能项,平均值、中位数、众数、总和。我们这里主要关注平均值、中位数、和众数的区别。
离散趋势:
主要功能项有,方差、标准差和范围。
范围就是数据中最大值与最小值得差,计算简单,容易理解。但是对极端值敏感,无法正确反映离散情况。相对而言,方差和标准差能够反映数据的离散情况,对极端值有一定忍受程度,但是极端值过大,也会造成对数据的离散程度描述失真。
分布特征:
对于较大数据,人们通常希望了解他的分布状况,峰度和偏度是描述其分布的两个重要的统计参数。它们的值都依赖于标准正态分布,描述的是与标准正态分布的偏离程度。
让我们再次回答频率对话框,此时我们已经选好了所想展示的统计参数,如果我们不去直接按‘确定‘,而是单击第二个按钮’图表‘,然后跳出’频率:图标‘对话框:
在’频率:图表‘对话框中主要的功能项有’条形图‘,’饼图‘,’直方图‘。我们可以根据数据的类型和分析目的来选择合适的图表功能,比如对于离散数据,如果想了解其分布状态,通常选择条形图,如果想了解数据结构,通常选择饼图。对于连续数据,可通过直方图了解其分布状态。因此,这里我们选择直方图来描述连续变量Q3的分布状态。
从上图可以发现,变量Q3是近似正态,并且右偏的分布
3.2 描述分析
单击’分析菜单‘,在下拉框中选择’描述统计‘,在右边下拉框中找到并点击’描述分析‘,弹出下列对话框:
在左栏选择变量’Q3‘,点击转换按钮,Q3自动转换到右栏。点击’选项‘按钮,弹出’描述:选项‘。
在该对话框中选择所需的统计参数,点击继续,重新回到’描述‘对话框,然后点击确定。产生下面的描述统计表。
描述统计分析的结果和频率分析结果没有任何区别,甚至在某些方面还不如频率分析。但是,它也有自己的独到之处,比如利用描述分析对话框,可直接进行数据标准化。
3.3 交叉表分析
交叉表是一种行列交叉的分类汇总表格,行和列上至少各有一个分类变量,行和列的交叉处可以对数据进行多种汇总计算。
交叉表分析一般分析分类变量,以交叉表格的形式对两个或两个以上分类变量的关系进行多角度对比分析。
单击’分析菜单‘,在下拉框中选择’描述统计‘,在右边下拉框中找到并点击’交叉表‘,然后将会弹出下面的对话框:
利用一贯使用的方法,分别把’Q3‘和’Q13‘转移到’行‘功能框里,把Q2转移到’列‘功能框里,然后点击’单元格‘按钮’,弹出‘交叉表:单元格显示’对话框:
我们在‘计数’和‘百分比’与‘非整数权重’复选功能框内选取合适的功能项,然后点击继续,又回到‘交叉表’对话框,点击‘确定’按钮,返回结果。
3.4 多分类定义
分类数据可以通过二分类与多分类进行录入。二分类数据录入非常容易,通过一个带有变量值‘0’和‘1’的变量来完成即可,多分类数据录入也没有想象中的那么难。只要用合适的数字表示就可以了。接下来我们举例说明:
假设有这样一个问卷,有四个选项:
我们可以通过四个二分类变量的设置来保存问卷结果:
ID | 有钱 | 有权 | 长的帅 | 有钱有权长得丑 |
---|---|---|---|---|
妹子1 | 0 | 1 | 0 | 0 |
妹子2 | 1 | 0 | 0 | 0 |
妹子3 | 0 | 0 | 1 | 0 |
妹子4 | 0 | 0 | 1 | 0 |
妹子5 | 0 | 0 | 0 | 1 |
妹子6 | 0 | 0 | 0 | 1 |
妹子7 | 1 | 0 | 0 | 0 |
妹子8 | 1 | 0 | 0 | 0 |
妹子9 | 0 | 1 | 0 | 0 |
也可以通过一个分类变量来保存问卷结果,如果我们把‘妹子的择偶标准’的四个分类分别赋予1,2,3,4四个值:
问卷结果的单变量多分类存储方式:
ID | 选择结果 |
---|---|
妹子1 | 2 |
妹子2 | 1 |
妹子3 | 3 |
妹子4 | 3 |
妹子5 | 4 |
妹子6 | 4 |
妹子7 | 1 |
妹子8 | 1 |
妹子9 | 2 |
如果是多选,我们可以根据多选的数量来设置变量数量,比如可以多选,最多选三个:
多重分类法来存储多选结果:
ID | 选择结果1 | 选择结果2 | 选择结果3 |
---|---|---|---|
妹子1 | 2 | 3 | 4 |
妹子2 | 1 | 2 | 4 |
妹子3 | 1 | 2 | 3 |
妹子4 | 1 | 2 | 3 |
妹子5 | 2 | 3 | 4 |
妹子6 | 2 | 3 | 4 |
妹子7 | 1 | 2 | 4 |
妹子8 | 1 | 2 | 3 |
妹子9 | 2 | 3 | 4 |
二分类法存储多选结果:
ID | 有钱 | 有权 | 长的帅 | 有钱有权长得丑 |
---|---|---|---|---|
妹子1 | 0 | 1 | 1 | 1 |
妹子2 | 1 | 1 | 0 | 1 |
妹子3 | 1 | 1 | 1 | 0 |
妹子4 | 1 | 1 | 1 | 0 |
妹子5 | 0 | 1 | 1 | 1 |
妹子6 | 0 | 1 | 1 | 1 |
妹子7 | 1 | 1 | 0 | 1 |
妹子8 | 1 | 1 | 1 | 0 |
妹子9 | 0 | 1 | 1 | 1 |
无论是二分法还是多重分类法,只要使用多变量存储多选结果,那么无论如何就要对这些变量进行定义。否则spss将无法分析数据。因为这些变量其实归属于一个特征,我们必须把它们集中成一个集合,定义成一个被我们统称之为‘多重响应集’的集合。其本质含义就是使用多变量记录结果,其中每条数据(每个个案)包含多个选择结果。
单击‘分析’菜单,选择‘定制表’,在弹出的右侧子菜单里选择并点击‘多重响应集’,则弹出’定义多重响应集’对话框:
Q5明显是二分类多变量记录存储,因此必须把它们合并成一个多重响应集。
把对话框所有Q5变量的分类项全部转移到右框中,选择二分法,计数值填写‘1’也就是说按类标签‘1’计数。在‘类别标签来源’处,选择功能项‘变量标签’才有意义。
Q8明显是多分类多变量存储记录,因此必须把它们合并成一个多重响应集。其方法和上面雷同,仅仅在‘变量编码’处选择‘类别’,与上面不同。
相关分析
第四章: 相关分析
相关分析分为两种:线性相关关系和非线性相关关系,线性相关又叫直线相关,非线性相关通常指的是曲线相关。
我们这里主要关注于‘皮尔森线性相关’
接下来我们首先进行散点图绘制。单击‘图形’菜单,选择‘旧对话框’,此时在右侧出现的菜单中选择并点击‘散点图/电图’,然后弹出下面的对话框:
选择‘简单散点图’然后点击‘定义’按钮。
然后把右边栏目中的合适变量分别通过转换按钮转移到’Y轴‘和’X轴‘功能框里。单击’确定‘按钮,即可得到下面的散点图:
很明显,变量‘Season’和‘Retail Sales’之间存在明显的线性正相关关系,‘Retail Sales’随着变量‘Season’单调增变化。
散点图帮助我们实现了对变量间关系的可视化直观判断,若想量化这种关系,就必须通过相关分析来实现了。
单击‘分析’菜单,选择‘相关’,在右侧弹出子菜单,单击‘双变量’,弹出‘双变量相关性’对话框。
回归分析
第五章: 回归分析
定义:回归分析是统计分析方法,旨在模拟一个因变量与一个或多个自变量之间的关系。主要用来定量描述相关性或者对因变量的值进行预测。
换成通俗语言:研究自变量与因变量之间数量变化关系的一种分析方法,它主要是通过确定因变量Y与影响它的自变量Xi之间的函数关系,衡量自变量Xi对因变量Y的影响能力,进而可以预测因变量Y的发展趋势。
回归分析包括线性和非线性回归,非线性回归可以通过适合的数学变换转化为线性回归。这里我们主要着力于线性回归。
5.1 线性回归分析流程
\1. 根据预测目标选择合适的自变量和因变量
\2. 对于简单回归分析,可以绘制散点图,直观地观察因变量是否随自变量呈线性发展趋势
\3. 利用最小二法进行模型参数估计,确定回归模型
\4. 对回归模型进行检验
\5. 利用回归模型进行预测
线性回归的理论依据是最小二算法,这在下一阶段的算法课上会有介绍。
下面我们通过一个例子来学习下用Spss处理线性回归问题。
1,数据聚合,数据初判断
打开文件’Sales5000.xls’,单击‘数据’,选择并单击‘汇总’后,跳出下面的对话框:
通过转换按钮把选定的分组变量从左框中转移到‘分界变量’功能框里;把待聚合变量转移到‘汇总变量’功能框里,具体内容见下表:
按下‘确定’按钮,就会产生一个新的承载聚合结果的数据集‘New_data’。此时,数据量从原始的50000条数据聚合到2766条数据。
为了进一步聚合,我们通过变量计算把变量‘OrderDate’转换成只包含年月的字符串,然后按转换后的变量聚合。
按转换后的变量‘Orderdata_new1’继续聚合:
最终得到下面的结果:
聚合后的数据减少到91行
2,回归分析
我们确定Orderdata_new1为自变量,UnitsSold_sum_sum为因变量,然后对二者做散点图:
同理,我们也可以对‘TotalRevenue_sum_sum’作图。
我们发现其中并没有很强规律性,当然还是可以做回归分析的,只不过效果不会太好。尽管无法实施我们的最终目的,但是从中我们可以总结出,对于单变量或双变量回归,通过作图,在一定程度上可以判断数据是否具有回归价值。
打开数据‘推广效果数据’,画出散点图,方法如上:
点击‘确定’后,产生下面的图像:
很明显,上面图像告诉我们,广告费用与购买用户数存在明显正相关。两者之间的皮尔森相关系数为:0.952。下面我们对其建立线性回归模型:
单击‘分析’,在下拉菜单中选择‘回归’,在右边的下拉菜单中点击‘线性’,则跳出‘线性回归’对话框:
参数设置:
\1. 设置‘因变量’与‘自变量’
\2. 回归系数与拟合度设置
单击‘统计’按钮,弹出‘线性回归:统计’对话框。
在‘回归系数’功能框中选择‘估算值’功能框,返回回归系数。
在该框的右边选择‘模型拟合’返回拟合优度R的值。
\3. 自变量步进标准及常数项设置
点击‘线性回归’对话框中的‘选项’按钮,跳出‘线性回归:选项’对话框
步进法条件实际就是模型输入变量和移去变量的条件,具体如下:
准则: F-to-enter 的概率 <= .050,F-to-remove 的概率 >= .100,F指的是F-检验,它通常来检验正态假定下两个变量(自变量与因变量)之间的相关性。F值对应的概率越小,自变量与因变量的关系越强,也就意味着越有资格进入。这样的设置避免了经验缺乏的新手不知道如何通过F值作变量存移。
另外,还需在‘在方程中包括常量’前面的方框里打上对号。
点击‘继续’回到线性回归对话框。单机确定,完成回归分析。
\4. 模型检验,运行结果分析:
这个表格没什么可说的。
这个表格中最重要的参数是R方,因为简单的线性回归主要采用R方来考量模型模拟效果,而调整后R方用于修正因自变量个数的增加而导致的模型过拟合问题,因此多用于衡量多重线性回归模型的拟合效果。
对于这个表格我们只需关注显著性(p值)即可。也即直接与显著性水平a(0.01,或0.05)比较得出结果。表格中的显著性=0.000<=0.01,说明0假设不合理,对立假设成立。也即自变量和因变量间存在的线性关系具有极其显著性的统计学意义。如果0.01<显著性(p值)<=0.05,则结果具有显著的统计学意义;如果显著性(p值)<=0.01,则结果具有极其显著的统计学意义。
上面的表格是线性回归模型回归系数表。这里重要的信息是‘B’列数据和‘显著性’列数据。‘B’列数据描述的是回归系数;‘显著性’列是回归系数显著性检验的结果,即研究回归模型中的每个自变量与因变量之间是否存在显著的线性关系。p值越小,两者之间的线性关系就越显著;反之,则越不显著。如果检验不显著,则其对应的回归系数要从模型中删去。
根据‘B’列我们可以确定该线性回归模型:
Y=77.687x+1835.016
\5. 回归模型进行预测
点击‘分析’ 按钮,在下拉框中选择‘回归’标签,然后在右边的下拉框中选择并点击‘线性‘,在弹出的对话框中点击保存:
在弹出的对话框中按下图设置参数:
点击‘继续’再次回到’线性回归‘对话框中。然后点击确定,就会发现一个新列产生,该列就是预测值。