一、项目基本信息
实训基础
实训项目简介
通过本次实训,学生可以掌握数据分析的基本概念、理论和方法。同时,本课程将学习常用的统计分析软件。本课程内容涵盖了统计分析和统计计算的基本概念,统计软件的应用等。主要内容有数据文件的建立和管理、描述性统计分析、相关分析、回归分析、logic回归、时间序列预测、RFM客户识别聚类分析、因子分析等统计分析的核心内容。
掌握SPSS这种专业统计软件的操作,独立完成从建立数据文件到各种统计分析的操作;在操作的基础上,能够结合前面所学的统计学知识读懂和解释SPSS输出的各种统计图表,并在毕业论文或学术论文中正确而规范地使用图表中的信息来报告分析结果;使学生掌握一门实用而又专业性很强的技能;同时为学生学习其他专业课程、从事科学研究奠定前提和基础。
实训目标:
(1)以各种统计分析方法的基本理论为基础,深刻体会各种统计分析方法的基本思想,并以统计软件SPSS作为一种实现手段,熟悉各种统计分析方法在其中的操作步骤,指导学生完成统计分析和统计计算过程。试图建立一个实践与理论相结合,着重培养学生实际动手能力为主的实验教学课程体系。
(2)在切实培养提高学生实践动手能力的同时,在实践中不断培养学生独立思考、综合分析、推理判断的能力,科学思维能力和创新意识,培养学生的自学能力,锻炼学生的学习方法,相互协作的团队精神。
实训项目:
(1)数据文件的建立与预处理
(2)数据可视化与线性回归
(3)logic回归
(4)RFM客户价值识别
(5)时间序列
(6)聚类分析
(7)判别分析
(8)因子分析
二、实训项目实施要求
随着计算机的发展和普及,出现了许多统计软件。SPSS软件是其中非常优秀的一套社会科学统计软件。此软件的特点是:操作简单,处理数据的速度快,具有人性化的窗口环境,且可存取目前流行软件的数据文件。本课程面向市场营销专业学生,通过本课程的教学使他们能针对所面临的问题,提出正确解决问题的方案,建立稳健有力的统计模型,运用高度精确化的统计分析工具,快速的得到答案,彻底地从重复单调的计算劳动中解放出来。
(一)教学方法
本课程分为课堂理论教学和上机实际操作。
1、课堂教学以教师讲解演示为主。每一课堂,教师都以一个现实的营销问题为引导,讲解一种统计方法和统计原理,同时介绍SPSS软件的操作方法,循序渐进;
2、实验课上,要求学生上机进行实际操作训练。 (1)在计算机上复习教师在课堂上所讲授的内容。 (2)完成教师布置的上机练习题,以巩固所学的知识。
(二)教学师资
市场营销专业教师,熟练运用该系统软件操作
(三)教学支撑
多媒体教室或商务系实训室
(四)教材选用
陈文沛、张挺. 市场营销研究与应用—基于SPSS. 电子工业出版社. 2013.9
(五)教学参考
1、宇传华,《SPSS与统计分析》,电子工业出版社,2007年
2、卢岱纹,《SPSS for Windows(第一版)》,电子工业出版社,2000年
3、张文彤,《SPSS11 统计分析教程(第一版)》,北京希望电子出版社,2002年
4、薛薇,《SPSS统计分析方法及应用》,电子工业出版社,2009年
(六)考核方式
1、实验报告(60%)
2、上机检查(20%)
3、考勤(20%)
三、实训细则
实训一 ( 3 学时)
项目名称:spss安装与基本操作
实训目的和要求:
1、学生掌握理论知识的基础上初步尝试使用软件分析数据。
实训背景意义讲解:通过本课程的学习,学生可以掌握数据分析的基本概念、理论和方法。同时,本课程将学习常用的统计分析软件。本课程内容涵盖了统计分析和统计计算的基本概念,统计软件的应用等。主要内容有数据文件的建立和管理、描述性统计分析、相关分析、回归分析、logic回归、时间序列预测、RFM客户识别聚类分析、因子分析等统计分析的核心内容。
重点培养学生运用统计软件包进行数据分析的能力,使学生具备独自使用统计软件完成对数据的信息分析,并完成数据分析报告的编写,在此基础上为以后的理论研究和实际应用打下坚实的基础。
2、掌握SPSS的基本窗口、菜单安排及利用SPSS进行统计分析的基本步骤;
2、掌握数据文件的录入、导入和管理;
3、熟练掌握数据文件的筛选、排序、分类汇总、分组等预处理方法。
实训内容:
(1)理解大数据时代信息分析的作用和特点;
(2)信息分析的过程。
等知识
(3)实训软件的安装和登录
(4)数据中心的创建与维护:根据案例企业信息创建新的数据中心,数据中心创建成功后,才可以登录和访问系统信息。
(5)利用SPSS软件读取数据,计算数据,并为变量添加中文标签。
针对SPSS自带数据Employdata.sav进行以下练习:1)根据变量bdate生成一个新变量“年龄”;2)根据雇员的性别对salary的平均值进行汇总;3)生成新变量grade,当salary<20000时取值为d,当取值范围为20000~50000(包括20000)时为c,当在50000~100000(包括50000)中时为b,大于等于100000时为a。
实训二( 3 学时)
项目名称:数据可视化和线性回归
实训目的和要求:
1、熟练掌握连续变量与分类变量描述统计量计算的具体操作,并能解释分析结果;
2、熟练掌握连续变量与分类变量的参数估计的具体操作,并能解释分析结果;
3、熟练掌握其具体操作,并能解释分析结果的含义;
4、能够对线性回归方程进行各种统计检验,掌握其具体操作,并能解释分析结果。
实训内容:
利用练习的数据,1.散点图的制作;2.变量之间关系的判断;3.相关系数的计算;4.回归模型的设定;5.R方,F检验,T检验的解读;6.残差检验;7.预测
通过不同的广告投入,分析广告投入和销量之间的关系。因为响应变量销量是一个连续的值, 所以这个问题是一个回归问题。数据集共有200个观测值
¬ 描述性统计
数据的描述性统计见表1-1,从表可知样本量为200,均为有效观测值。其中电视广告(TV)的最小值为0.7,最大值为296.4;电台广告(radio)最小值为0,最大值为49.6;报纸广告投入的最大为114,最小值为0.3;因变量的销售额(sales)的最小值为1.6,最大值为27。数据中没有缺失值和异常值,因此数据的质量符合统计分析的要求。
¬ 通过分析,可知变量TV、radio、sales存在着线性的相关关系,因此设定回归模型如下:
sale=α+β_1 〖TV〗_i+β_2 〖radio〗_i+ϵ
其中,i=1,2,3…200表示第i个变量,α表示常量,β1和β2 为变量tv和radio的弹性系数,ε表示误差。
(7)利用回归模型进行预测,并撰写实验报告
实训三( 3 学时)
项目名称:LOGIC回归-商户区续约预测
实训目的和要求:
掌握logic回归的使用对象,利用SPSS通过简单的对数转换把非线性回归转化为线性回归问题,并利用SPSS中得软件模块,利用现有数据制作预测模型,预测未来的数据。
1.logic回归的内涵
2.分类变量之间的关系研究
3.通过分为数进行分组
实训内容:
(1)使用SPSS软件分析非数值变量的相关性
利用1500组华南商户的签约数据,预测华北商户是否预约。现有数据如下
l ID:合作商(租房的ID)
l 注册时长:合作用户注册的时长(月)
l 营业收入:合作用的营业收入,单位为万元
l 成本:合作用户的经营成本,单位为万元
l 续约:合作用户是否续约,1表示续约,0表示不续约
(2)制作LOGIC回归模型
通过模型的设定和对分析可知变量用户注册时长、营业收入和成本均对用户的续约产生影响,因此将模型设定如下:
公式(1)中,i=1,2,3….1500,表示1500个商家,p表示续约的概率,logit(p)表示续约概率的倒数,time、income、cost分布表示注册时长、表示营业收入及营业成本,β表示变量的弹性系数。模型结果为:未续约的正确预测率相对较低只有54.1% ,续约的正确预测率为83.7% ,总体正确率为73.1% ,模型预测正确较高。
(3)在此基础上进一步利用模型进行预测,并撰写实验
实训四( 3 学时)
项目名称RFM客户价值识别
实训目的和要求:
通过RFM方法,我们根据用户的属性数据分析,对用户进行了归类。在推送、转化等很多过程中,可以更加精准化,不至于出现用户反感的情景,更重要的是,对产品转化等商业价值也有很大的帮助。通过本章的学习让学生掌握RFM理论,并且熟练的使用SPSS中的RFM模块,根据收集的销售数据对客户进行分类。
1.RFM的作用和含义
2、FS的计算、RS的计算、ms的计算
3.RFS结果的解读
实训内容:
(1)通过RFM方法,我们根据用户的属性数据分析,对用户进行了归类。在推送、转化等很多过程中,可以更加精准化,不至于出现用户反感的情景,更重要的是,对产品转化等商业价值也有很大的帮助。
在产品迭代过程中,通常需要根据用户的属性进行归类,也就是通过分析数据,对用户进行归类,以便于在推送及转化过程中获得更大的收益。
RFM分析(Recency,Frequency,Monetary)
R(Recency):客户最近一次交易时间的间隔。R值越大,表示客户交易发生的日期越久,反之则表示客户交易发生的日期越近。
F(Frequency):客户在最近一段时间内交易的次数。F值越大,表示客户交易越频繁,反之则表示客户交易不够活跃。
M(Monetary):客户在最近一段时间内交易的金额。M值越大,表示客户价值越高,反之则表示客户价值越低。
RFM分析就是根据客户活跃程度和交易金额的贡献,进行客户价值细分的一种方法,具体划分见下表:
RFM客户细分法
RS分类 FS分类 MS分类 客户类型
高 高 高 高价值客户
低 高 高 重点保持客户
高 低 高 重点发展客户
低 低 高 重点挽留客户
高 高 低 一般价值客户
低 高 低 一般保持客户
高 低 低 一般发展客户
低 低 低 潜在客户
(2)使用RFM模型对商场客户的消费数据对客户进行分析和评分,在此基础上对客户进行分类。
实训五( 3 学时)
项目名称: 时间序列-公司来年的销量预测
实训目的和要求:
掌握时间序列模型的基本原理,利用SPSS制作时间序列图形,通过图形判断采用乘法模型或加法模型。在熟练使用SPSS对时间序列数据进行季节分解的基础上,制作时间序列模型,并用模型预测来年的销售数据。
1.时间序列模型的内容
2.季节分解法
3.模型的设定
实训内容:
销量增长随着时间的增加,存在着某种趋势,并且销量的波动幅度随着时间的增加不断增大。因此使用乘法模型分解数据。
(1)季节分解
利用SPSS对销售数据进行季节分解,数据分解后将产生四个新的变量 :
1) 误差序列(“ERR”),表示从原始的时间序列中剔除了季节因素(S)、长期趋势(T)、循环波动(C)之后的序列。
2) 季节因素校正后序列(“SAS”),原始序列中提剔除了季节因素(S)之后的校正序列。
3) 季节因子(“SAF”),从序列序列中提取出来的季节因素(S),特点是变量值根据季节周期重复变动
4) 长期趋势和循环变动序列(“STC”),为原始序列中的长期趋势和循环变动趋势构成的序列。
(2)时间序列建模
回归模型如下:
ARIMA(0,1,1)(0,1,1)
表示对移除季节因素的序列和包含季节因素的序列分别进行了一阶差分和一次平均移动。
ARIMA:atuo Regress integrated Moving Average求和移动自回归移动平均模型 ,其模型形式ARIMA(p,d,q)( P,D,Q),小写字母表示针对季节变化后的序列,大写字母主要描述季节变化,因此这个模型也是符合模型,其中:
P:表示移除季节变化后的序列所滞后的p期
d:表示移除季节变化后的序列进行了d阶差分
q:表示移除季节变化后的序列进行了q次移动平均
实训六( 3 学时)
项目名称:聚类分析
实训目的和要求:
通过本章的教学使学生理解聚类分析的方法和作用,了解聚类分析中常用的距离和相似系数以及适用的范围。掌握系统聚类法,能运用系统聚类feature解决实际问题问题
1.系统聚类法
2.均值聚类法
3.二阶聚类法
实训内容:
(1)聚类分析是基于数据之间的距离远近,对研究变量进行聚类分组,聚类分析事先不知道分组情况,是一种探索性分析;判别分析事先给我们几个分好类的组,然后让我们基于现有分组数据的特征,构建分组的方程,即判别式,然后依据判别式对未知的样本进行分类判别。聚类分析就是分析如何对样品(或变量)进行量化分类的问题。
(2)快速聚类
快速聚类:称之为均值聚类,即按照一定的方法选取一批聚类中
心点,让个案向最近的聚类中心聚集形成的初始分类,然后按照最近
举例原则调整不合理的分类,直到合理为止。
实训七( 3 学时)
项目名称:判别分析
实训目的和要求:
理解判别分析的基本思想,以及探讨与假设检验,聚类分析的结合途径;弄清楚逐步判别法对指标和样本的处理,对指标时引入与删除还是转换,熟练运用SPSS中的判别分析模型对鸢尾花进行分类。
1.判别分析的内涵;
2. 费舍尔判别函数
3. 判别函数特征值
实训内容:
(1)判别函数特征值;前面介绍过,判别分析与因子分析的原理类似,判别函数的提取方式和因子分析是一样的,通过原始变量的线性组合,因此下表的解读也一样。特征根代表携带原始变量的信息量大小,从特征根计算得到方差解释度(方差百分比)。本案例只提取两个判别函数,第一个判别函数能够解释99%的原始变量信息。
(2)特征根显著性检验;原假设是各分组的均值向量相等,也就是不同分组之间的重心完全重合,无法进行判别区分。从结果可知,三种鸢尾花的尺寸重心在判别函数1和判别函数2的坐标轴上没有重合,因此两个判别函数都有意义。
标准化系数表格;
上表显示两个判别函数由各个变量组成的标准化系数,由此可以了解变量对判别函数的影响大小。同时可以写出标准化的判别函数式。
(4)结构矩阵;判别得分与自变量间的相关系数。结果中用星号标出与两个判别函数相关性更大的自变量。有结果可知,判别函数1主要与花瓣长变量相关,花萼长、花萼宽和花瓣宽则与判别函数2相关性更大。由前面的特征根知道,判别函数1携带99%的自变量信息,因此可以推断花瓣长变量在判别分析中起了最主要的作用。
(5)判别得分计算公式;
根据上表可以写出两个判别得分的计算公式,这里所用的变量数据为原始数据:
(6)三个鸢尾花品种在两个判别函数坐标系内的坐标。
前面的判别函数检验就是检验三个品种在两个判别函数上的取值是否相等。在获得三个品种的重心后,只需比较每个个案离哪个重心距离近,就将该个案判别为哪个类别。
实训八( 3 学时)
项目名称:因子分析
实训目的和要求:
理解因子分析与主成分析的关系,掌握因子载荷指与因子得分的意义,利用SPSS中的因子分析模型,对数据进行评分。
1、理解因子分析的基本原理,熟练掌握其具体操作,并能解释分析结果的含义;
3、能灵活运用聚类分析和因子分析方法进行实际数据分析。
实训内容:
找出隐藏在变量背后具有共性的因子,这种方法称为因子分析。因子分析是通过研究变量间的相关系数矩阵,把这些变量间错综复杂的关系归结成少数几个综合因子,并据此对变量进行分类的一种统计分析方法。由于归结出的因子个数少于原始变量的个数,但是它们又包含原始变量的信息,所以,这一分析过程也称为降维。
因子分析的主要目的有以下三个:
★探索结构:在变量之间存在高度相关性的时候我们希望用较少的因子来概括其信息;
★简化数据:把原始变量转化为因子得分后使用因子得分进行其他分析,比如聚类分析、回归分析等
★综合评价:通过每个因子得分计算出综合得分,对分析对象进行综合评价。
可以理解为通过因子分析,原始变量会转变为新的因子,这些因子之间的相关性较低,而因子内部的变量相关程度较高。就是因子分析的基本思想。
(2)载荷系数和碎石图
(3)因子得分的计算
因子得分可以用来评价每个个案在每个因子上的分值,该分值包含了原始变量的信息,可以用于代替原始变量进行其他统计分析,比如回归分析,可以考虑将因子得分作为自变量,与对应的因变量进行回归。
这里需要注意的是,原始变量的数值是可以直接观测到的,而因子得分只能通过原始变量和因子之间的关系计算得到,并且因子得分是经过标准化之后的数值,各个因子得分之间不受量纲的影响。
(4)利用因子得分进行综合评价
因子分析法步骤
主要有四个步骤
¬ 判断数据是否适合因子分析
因子分析法的变量要求为连续变量;
建议个案数为变量数的5倍以上;
KMO检验统计量0.5以上,否则不适合因子分析法,若在0.8以上即为适合;
构造因子变量
利用因子旋转方法使得因子更具实际意义
计算每个个案因子得分
在大数据时代背景下,市场营销中的客户调查、市场占有率分析、争对手产品优势、产品区域销售率差别、新品上市对现有产品的冲击等分析都需要对大量的数据进行统计,并得出结论。数据分析实训课程作为市场营销专业的学生掌握SPSS会明显提升自身的就业竞争力。