• 1. 第1章 数据分析概述与软件入门1.1 SPSS软件概述 1.1.1 SPSS简介 SPSS(Statistics Package for Social Science )for Windows是一种运行在Windows系统下的社会科学统计软件软件包。 SPSS的基本功能包括数据管理、统计分析、图表分析、输出管理等,具体内容包括描述统计、列联分析,总体的均值比较、相关分析、回归模型分析、聚类分析、主成份分析、时间序列分析、非参数检验等多个大类,每个类中还有多个专项统计方法。
    • 2. 一、功能强大(1)囊括了各种成熟的统计方法与模型,为统计分析用户提供了全方位的统计学算法,为各种研究提供了相应的统计学方法。 (2)提供了各种数据准备与数据整理技术。 (3)自由灵活的表格功能。 (4)各种常用的统计学图形。
    • 3. 二、SPSS的实验环境要求(1)系统运行环境 SPSS10.0以上版本软件包可以工作在两种模式下,单机模式和作为网络系统的用户界面模式。 (2)辅助软件环境 三、SPSS的主要界面 SPSS的主要界面有数据编辑窗口和结果输出窗口。 四、SPSS的帮助系统 SPSS对一些基本模块中的统计提供了帮助,可以通过单击Help菜单中的Statistics Coach命令,选择所需要的统计指导。
    • 4. SPSS附加模块功能SPSS Advanced一般线性模型、混合线性模型、对数线性模型、生存分析等SPSS Categories对应分析、感知图、Proxscal等SPSS Complex Sample多阶段复杂抽样技术等SPSS Conjoint正交设计、联合分析等,适用于市场研究SPSS Exact Test精确P值计算、随机抽样P值计算等SPSS Maps在地图上展示数据等SPSS Missing Value Analysis缺失数据的报告与填补等SPSS RegressionLogistic回归、非线性回归、Probit回归等SPSS Tables交互式创建各种表格(如堆积表、嵌套表、分层表等)SPSS TrendsArima模型、指数平滑、自回归等
    • 5. 五、SPSS的运行方式SPSS提供了3种基本运行方式:完全窗口菜单方式,程序运行方式、混合运行方式。程序运行方式和混合运行方式是使用者从特殊的分析需要出发,编写自己的SPSS命令程序,通过语句直接运行。 SPSS中使用的对话框主要有两类,一类是文件操作对话框,文件操作对话窗口操作与Windows应用软件操作风格一致。另一类是统计分析对话框,统计分析对话框可以分为主窗口和下级窗口,在该类对话框中,选择参与分析的各类变量及统计方法是对话框的主要任务。
    • 6. 1.1.2 spss的安装一、启动Windows 后,把SPSS 系统安装软盘(或光盘)插入软驱(或光驱),并找到SPSS的安装程序的可执行文件Setup.exe。 二、双击 Setup.exe 文件,安装程序向导将给出每一步操作的提示。在出现[Welcome(欢迎)]窗口后,选择[Next]进入下一步。 三、安装程序显示[Software License Agreement]对话框时,选择[Yes]接受显示的协议条款。
    • 7. 1.2 spss操作入门1.2.1 spss软件的启动与退出 单击Windows 的[开始]按钮,在[程序]菜单项[SPSS for Windows]中找到[SPSS 10.0 for Windows]并单击。
    • 8. 1.2.2 SPSS的5个窗口(1)数据编辑窗口(SPSS Data Editor)Spss处理数据的工作全在此窗口进行。
    • 9. (本页无文本内容)
    • 10. (2)结果管理窗口(SPSS Output viewer)此窗口用于存放分析结果。左边是目录区,右边是内容区。
    • 11. (3)草稿结果窗口(SPSS Draft Viewer) 草稿结果是结果的一种简化文本格式。实际上就是WORD所兼容的rtf超文本格式,因此可以在没有安装SPSS的PC机上使用文字编辑软件打开。
    • 12. (4)语法编辑窗口(SPSS Syntax Editor)
    • 13. (5)脚本窗口(SPSS Script Editor)
    • 14. 1.2.3 SPSS的四种运行方式一、菜单对话方式 首先打开SPSS软件,然后选择菜单File Open file。 然后,利用菜单Analyze Descriptive Statistics Frequencies,
    • 15. (本页无文本内容)
    • 16. 二、程序方式在Syntax编辑窗口中键入以下程序:Get file=‘c:\program files\spss\employee data.sav’. Frequencies variables = jobcat/order = analysis。只需要选择菜单Run All,运行该程序也一样会出现相同的分析结果。
    • 17. 三、Include命令方式当编写Syntax程序时,如果发现将要编写的程序语句正好是另一个Syntax文件的内容;或者发现所需要的程序语句其实是几个Syntax文件的总和是,除了可以通过“Copy”、“Paste”的方法利用资源,生产一个新的Syntax文件外,还可以利用Include命令。Include ‘c:\sytaxsample.sps’.
    • 18. 四、spss Production Faccility 方式在Windows的程序菜单中,spss菜单组除了有“spss for windows”项之外,还有一个“spss production facility”。
    • 19. (1)单击Syntax框下的“Add”按钮,到C盘根目录下打开“syntaxsample”。(2)单击Syntax框下的“Edit”按钮,对程序进行编辑。(3)单击右下角的“uesr prompts”按钮,添加对程序的交互分析界面。(4)单击“Browse”按钮制定结果保存路径,单击“export options”按钮还可以制定结果保存格式。
    • 20. 1.2.4 spss的四种输出结果1、表格格式 2、文本格式 3、标准图与交互图 4、结果的保存和导出
    • 21. (本页无文本内容)
    • 22. 第2章 数据录入与数据获取本章主要解决两个问题: 第一个问题,根据问题类型的不同,将会从开放题、单选题和多选题的录入方式为例进行介绍。 第二个问题,重点介绍如何用SPSS直接读取Excel类型和文本格式的数据,以及如何用ODBC接口读取数据库文件。
    • 23. 2.1.1 统计软件中数据的录入格式 (1)不同观测对象的数据不能在同一记录中出现,即同一观测数据应当独占一行。 (2)每一个观测量指标或影响因素只能占据一列的位置,即同一指标的数量观测值都应当录入到同一个变量中去。2.1 数据格式概述即:一个观测占一行,一个变量占一列
    • 24. 在录入数据时,归纳为以下三步: 第一步:定义变量名; 第一步:指定每个变量的各种属性; 第一步:录入数据。 变量名不能与spss保留字相同,spss的保留字有ALL、END、BY、EQ、GE、GT、LE、LT、NE、NOT、OR、TO、WITH。2.1.2 变量属性介绍
    • 25. 一、变量的储存类型SPSS中,变量有三种的基本类型:数值型、字符型和日期型。标准 数值型逗号 数值型圆点 数值型科学技术法 数值型美元 数值型用户自 定义型数值型:数值型的数据是0-9的阿拉伯数字和其他符号,如美元符号、逗号或圆点组成的。
    • 26. 字符型:字符型数据的默认显示宽度为8个字符位,系统不区分变量名中的大小写字母,并且不能进行数学运算。 注意:在输入数据时不应输入引号,否则双引号将会作为字符型数据的一部分。日期型:日期型数据是用来表示日期或时间的。日期型数据的显示格式有很多,SPSS以菜单方式列出日期型数据的显示格式以供用户选择。事实上,SPSS存储中的日期型变量是该实践与1582年10月14日零点相差的秒数。
    • 27. 关于日期型格式的几点说明:“m”在年与日(字母y与d)之间表示月份;在时与秒(字母h与s)之间表示“分”钟。 “mmm”表示要求书写英文月份单词的前三个字母组成的缩写。 “ddd”三个字母d表示要求用从元月一日算起的日数表示日期。 指定了日期变量的格式,不一定在输入时就使用指定的格式。可以输入用“/”或“—”作分隔符的具体日期,回车后,系统将自动将输入的格式转化为指定的格式,显示在单元各种。
    • 28. 二、变量的测量尺度在SPSS中使用Measure属性对变量的测量尺度进行定义。(1)定类尺度(Nominal Measurement):定类尺度是对事物的类别或属性的一种测度,按照事物的某种属性对其进行分类或分组。特点:其值仅代表了事物的类别和属性,即能测度类别差异,不能比较各类之间的大小,所以各类之间没有顺序和等级。对定类尺度的变量只能计算频数和频率。在spss中,能适用定类尺度的数据可以是数值型,也可以是字符型变量。使用定类变量对事物进行分类时,必须符合穷尽原则和互斥原则。
    • 29. (2)定序尺度(Ordinal Measurement):定序尺度是对事物之间的等级或顺序差别的一种测度,可比较优劣或排序。特点:由于定序变量只能侧度类别之间的顺序,无法测出类别之间的准确差值,即测量数值不代表绝对的数量大小,所以其测量结果只能排序,不能进行运算。(3)定矩尺度(Interval Measurement):定矩尺度是对事物类别或次序之间间距的测度。特点:不仅能将事物区分为不同类型并进行排序,而且可能准确指出类别之间的差距是多少;定居变量通常以自然或物理单位为计量尺度,因此测量结果往往表现为数值,所以计量结果可以进行加减运算。
    • 30. (4)定比尺度(Scale Measurement):定比尺度是能够测算两个测度值之间比值的一种计量尺度,它的测量结果同定距变量一样表现为数值。特点:定必变量是测量尺度的最高水平,它除了具有其他三种测量尺度的全部特点外,还具有可计算两个侧度至之间笔直的特点,因此它可以进行加、减、乘、除运算,而定居变量值可进行加减运算。
    • 31. 三、变量名与变量标签值Label:定义变量名标签 Value:定义变量值标签
    • 32. 四、缺失值Spss中缺失值有用户自定义缺失值和系统缺失值两大类。在SPSS中,对字符型变量,默认的缺失值为空格;对数值型变量,默认的缺失值为零。
    • 33. 2.2 数据的直接录入2.1.1 操作界面说明标尺栏菜单栏工具栏数据输入区数据编辑区窗口标签标题栏状态栏 当前数据栏显示区滚动条Data View表可以直接输入观测数据值或存放数据,表的左端列边框显示观测个体的序号,最上端行边框显示变量名。
    • 34. Variable View表用来定义和修改变量的名称、类型及其他属性,如图所示。如果输入变量名后回车,将给出变量的默认属性。如果不定义变量的属性,直接输入数据,系统将默认变量Var00001,Var00002等。
    • 35. 在Variable View表中,每一行描述一个变量,依次是: Name:变量名。变量名必须以字母、汉字及@开头,总长度不超过8个字符,共容纳4个汉字或8个英文字母,英文字母不区别大小写,最后一个字符不能是句号。 Type:变量类型。变量类型有8 种,最常用的是Numeric数值型变量。其它常用的类型有:String字符型,Date日期型,Comma逗号型(隔3位数加一个逗号)等。 Width:变量所占的宽度。 Decimals:小数点后位数。 Label:变量标签。关于变量涵义的详细说明。 Values:变量值标签。关于变量各个取值的涵义说明。 Missing:缺失值的处理方式。 Columns:变量在Date View 中所显示的列宽(默认列宽为8)。 Align:数据对齐格式(默认为右对齐)。 Measure:数据的测度方式。系统给出名义尺度、定序尺度和等间距尺度三种(默认为等间距尺度)。
    • 36. 为了在统计分析过程中能有效的利用其它软件产生的数据,SPSS软件编辑窗口除可以使用*.sav扩展名数据文件,还可以直接打开和保存下述类型的文件: SPSS DOS版本产生的数据文件*.sys; Excel 报表程序产生的数据文件*.xls; DBASE 数据库格式文件*.dbf; SAS统计软件产生的数据文件。
    • 37. 2.2.2 开放题和简单单选题的录入一、在spss中定义变量录入数据的第一步是定义变量属性,随后才能进行数据录入。二、开放题的录入
    • 38. 三、单选题的录入 单选题的录入可以采用字符直接录入、字符代码+值标签、数值代码+值标签三种方式。
    • 39. 2.2.3多选题的录入一、多重二分法(Multiple Dichotomy Method) 所谓多重二分法,是在编码的时候,对应每一个选项都要定义一个变量,有几个选项就有几个变量,这些变量均为二分类,他们各自代表对一个选项的选择结果。 二、多重分类法(Multiple Category Method) 多重分类法,也是利用多个变量对一个多选题的答案进行定义,应该用多少个变量,由被访者实际可能给出的最多答案数而定。
    • 40. 三、多选题录入在spss中的实现
    • 41. 2.3 外部数据的获取SPSS读入非SPSS类型的文件数据,有三种主要方式:直接打开,利用文本导向读入文本数据以及利用数据库OBDC接口读入数据。2.3.1 电子表格数据如何导入spss中SPSS中可以直接读入许多常用格式的数据文件,选择菜单File Open Data或直接单击快捷键工具栏上的 快捷按钮,系统就会弹出Open File 对话框,单击“文件类型”列表框,在里面能够看到可以直接打开的数据文件格式。
    • 42. 2.3.2 文本数据如何导入spss中第一步:首先,在Open File 文件框中选中文件,单击“打开”,系统会自动启动文本倒入向导对话框。第二步:选择“NO”并单击“下一步”按钮。
    • 43. 用某种字符区分固定宽度第三步:分别选择“Delimited”和“yes”,然后单击“下一步”按钮。
    • 44. 第四步
    • 45. 第五步
    • 46. 第六步
    • 47. 第七步
    • 48. 2.4 数据的保存2.4.1 存为spss格式 2.4.2 存为其他数据格式
    • 49. 第3章 数据管理3.1 变量级别的数据管理对变量进行操作的内容主要集中于Transform菜单中,包括新变量的生成、记录的排序、对变量进行计数等。◇计算新变量:就是用Compute过程。 ◇变量转换:包括Recode、Visual Bander、Count、Rank Case、Automatic Recode这五个过程。 ◇专用过程:包括建立时间序列、缺失值代替和设定随机种子三个过程。 ◇Run Pending Transforming:用于执行编程中被挂起的数据整理操作。
    • 50. 计算产生新变量变量值自动编码设定随机数种子创建代替缺失值变量创建时间序列变量运行其它转换程序 变量值重新编码创建计数变量观测量排秩连续变量进行分段
    • 51. 3.1.1 计算新变量计算新变量的功能就是在原有spss数据文件的基础上,根据用户的要求,使用spss算术表达式及函数,对所有记录或满足SPSS条件表达式的记录,计算出一个新结果,并将结果存入一个用户指定的变量中。 一、常用基本概念 (1)spss算术表达式 spss算术表达式是由常量、spss变量名、spss的算术运算符、圆括号等组成的式子。 (2)spss函数 spss提供了多达70多种函数,分为八大类:算术函数、统计函数、分布函数、逻辑函数、字符串函数、日期时间函数、缺失值函数和其它函数。 (3)spss条件表达式 通过spss的算术表达式和函数可以对所有记录计算一个结果,如果仅希望对部分记录进行计算,则应当利用spss的条件表达式指定对那些记录进行计算。
    • 52. 二、compute过程的分析实例例3.1 统计英语成绩在60分以上的学生的数学和语文的平均成绩。
    • 53. (本页无文本内容)
    • 54. 例3.2 计算工人工资的所得税。学生自己练习。
    • 55. 3.1.2 对变量值进行分组合并一、对连续变量进行分组在SPSS中可以将连续变量转换为离散(等级或定序)变量,按照某种一一对应的关系生成新变量值,可以将新值赋给原变量。Recode过程和Visual Bander过程都可以完成这一任务,但前者给为简单和常用。例3.3 当学生英语成绩小于60时取值为“不及格”,大于等于60且小于70为“及格”,大于等于70且小于80为“较好”,大于等于80为“优秀”。
    • 56. (本页无文本内容)
    • 57. 二、分类变量类别的合并Recode过程也常用于合并某个分类变量的几个水平为一个水平。将上例grade中优秀、良好和及格三个等级合并为一个等级“PASS”,将grade的等级“不及格”转换为“NOPASS”。
    • 58. (本页无文本内容)
    • 59. 3.1.3 连续变量的可视化分段VISUAL Bander 用于将连续变量进行分段,该过程使用百分位数、标准差范围或者等间距方式将连续变量划分为若干组段,并采用图形化操作的方式。例3.4 对数学成绩进行分段,假设现在希望按变量math将学生分为5组,60分 以下为第一组,60分以上的按照等间距的方式分为4组。
    • 60. (本页无文本内容)
    • 61. (本页无文本内容)
    • 62. (本页无文本内容)
    • 63. 3.1.4 将字符变量转换为数值变量用automatic recode将字符变量转换为数值变量。
    • 64. 3.1.5 变量的编秩所谓编秩,就是对记录按照某个变量值大小来排序。Rank case过程就是用来排序的一个专用过程。例:根据性别分组计算数学成绩的秩次。
    • 65. (本页无文本内容)
    • 66. 3.1.6 Transform菜单中的其它功能 (1)count过程 如果用户需要对满足某项条件的数据进行计数,可以使用Count命令。 先在Target Variable中指定一个变量(可以是已经存在的变量或新变量),并定义变量标签,然后指定要统计的变量加到Numeric Variables框中,再单击Define Values按纽,打开Value to Count对话框。
    • 67. Value:输入某个值为清点对象; System-missing:以系统的缺失值为清点对象; System-or user missing:以系统或用户指定的缺失值为清点对象; Range:指定数值的计数区域:其中包括: ( )through( )在框内指定下限和上限 lowest through( ): 在框内只指定上限; ( )highest through: 在框内只指定下限。
    • 68. (2)random Number Seed过程: 用于设定伪随机函数的随机种子。
    • 69. 3.2 文件级别的数据管理(一)数据编辑窗口的Data菜单为用户创建和定义数据提供了方便的功能。这个菜单是SPSS统计软件数据整理的特有功能菜单。它的功能包括:对变量、观测量的编辑处理;对变量数据的变换;对观察量数据整理。 (1)简单命令:包括插入变量、插入记录和到达某条记录,他们的功能实际上都可以用鼠标在数据表界面上直接完成,很少会使用菜单来调用。 (2)常用的简单过程:包括排序、拆分文件、选择记录和加权记录。 (3)变量与数据文件属性导向:用于定义数据字典,或者将于定义的数据字典直接引入当前数据文件。
    • 70. (4)数重构过导向:用于进行数据转置,或者对重复测量数据表进行长型、宽型记录间的转换。 (5)文件合并过程:将几个数据文件合并为一个大的spss数据文件,含横向合并和纵向合并两种情况。 (6)正交设计过程:实际上是联合分析模块的一部分,用于生成实施联合分析所需要的设计。 (7)其他过程:包括定义日期变量过程、数据汇总过程和查找重复记录导向。
    • 71. 定义变量属性定义变量日期插入观测量拷贝数据属性插入一个变量定位观测量观测量排序重构数据结构分类或不分类汇总正交设计数据文件转置合并数据文件标识重复观测量拆分数据文件选择观测量观测量加权
    • 72. 3.2.1 记录排序一、排序的两种方法: (1)在数据表格的变量名处单击右键,弹出的右键菜单最后两项就是“sort Ascending”和“Sort Descending”。 (2)对于多变量排序,则需要使用Sort Cases过程来进行。 二、多变量排序需要注意的三点: (1)在多重排序中,制定排序变量名是很关键的,先指定的变量在排序时必然优先于后制订的变量。 (2)可以指定按某变量值升序排序的同时按另一变量值降序排序,或相反。 (3)排序以后,原来记录数据的排列次序将被打乱。
    • 73. (本页无文本内容)
    • 74. (本页无文本内容)
    • 75. 3.2.2 记录拆分Split File 分割文件的功能是把当前工作分割成两个或两个以上的组,随后的分析将对每个组进行。
    • 76. (本页无文本内容)
    • 77. 3.2.3 记录筛选Select Cases:当用户不需要分析全部的数据,而是按要求分析其中的一部分,使用该选择。All case:选择所有数据; If condition is satisfied: 按指定条件选择数据。
    • 78. Random Sample of cases:对观察值进行随机抽样。
    • 79. (本页无文本内容)
    • 80. (本页无文本内容)
    • 81. (本页无文本内容)
    • 82. Use filter variable:用指定变量作过滤。先选择一个变量,系统自动在数据管理器中将该变量值为0的观测单位标上删除记号,系统对标有删除记号的观测单位不作分析。Based on time or case range:顺序抽样。单击Range按纽,打开Select Case: Range对话框,用户自行定义从第几个观察值开始抽到第几个观察值结束。
    • 83. (本页无文本内容)
    • 84. 3.2.4 加权记录Weight Cases:设定某变量为频数变量。
    • 85. 3.2.5 数据汇总所谓分类汇总就是按指定的分类变量对观测值进行分组,对每组记录的各变量求指定的描述统计量,结果可以存入新数据文件,也可以替换当前数据文件。一、汇总的概念二、进行分类汇总的方法1、打开“data”菜单,选择“Aggregate”,展开aggregate data”对话框。
    • 86. 2、在左侧的源变量框中选择一个或多个变量作为分类变量进入分类变量(Break Variable[s])框中。3、在左侧的源变量框中选择一个或多个变量作为要求汇总的变量进入汇总变量(Aggregate Variable[s])框中,即要求这些变量的值进行分类汇总。4、“name& label” (名称与标签):单击此按钮可以修改组合后所生成新变量名称以及标签:可以在name后面的矩形框中输入新变量名。在Label后面的矩形框中输入新变量标签。单击“continue”按钮继续。
    • 87. 5、“Function”(函数) 选择此项可以确定汇总变量的描述内容;系统默认函数为平均数。
    • 88. (本页无文本内容)
    • 89. 3.3文件级别的数据管理(二) 3.3.1 数据字典的定义与应用 在大型的数据分析项目中,数据管理是非常重要的一个环节,为了保证工作质量,数据处理人员往往会事先定义好一个非常详细的数据格式,包括变量格式、变量标签、标签值、缺失值定义等,这被称为数据字典。 一、变量属性定义导向:Define Variable Properties 具体说来,可以列出所选变量的所有值;分辨没有值标签的值,并且提供自动给出值标签的功能;可以将另一个变量的属性拷贝到所选变量,也可以将所选变量的属性拷贝到其他变量。
    • 90. (本页无文本内容)
    • 91. (本页无文本内容)
    • 92. 二、复制数据文件属性导向Copy Data Properties 过程用于将定义好的数据字典直接应用到当前文件中。操作时不仅可以将一个外部数据文件相关属性拷贝到当前数据文件中,还可以进行自行定义,只选择某些变量,或者某些属性进行拷贝,这无疑大大提高了连续性项目对原有资源的利用程度。
    • 93. (本页无文本内容)
    • 94. (本页无文本内容)
    • 95. 3.3.2 查找重复记录Identifying Duplicate Cases:用于查找重复记录。
    • 96. (本页无文本内容)
    • 97. (本页无文本内容)
    • 98. (本页无文本内容)
    • 99. 运行结束后,结果窗口会给出本次操作的信息汇总:
    • 100. 3.3.3 数据文件的重新排列与转置一、数据的长型与宽型格式: 长型格式和宽型格式指的是重复测量数据的两种不同的排列方式。 由于重复测量模型可以使用不同的统计模型加以分析,因此根据模型的要求进行长型格式和宽型格式之间的互转换是数据分析中经常要遇到的问题。