虚拟变量是啥(虚拟变量是什么意思)
作者:缇娜
了解虚拟变量
DUMMY VARIABLE
认真学习,不负青春!
在数据分析中,利用回归模型来寻找变量间的关系是广泛应用的一种数据分析方法。通常情况下,回归分析中变量都是定量数据,原因是模拟回归需要样本数据。然而在实际的操作中,模型中只考虑定量变量是不全面的。因为很多经济现象不仅受一些定量数据的影响,还会受到一些定性数据的影响。比如自然灾害、战争等特殊时期对经济的影响,特殊政策的颁布对经济产生的影响等。
如果能确定某一研究结果存在这种定性影响,那么仅仅用定量数据对被解释变量进行解释显然是不够严谨的,很可能对模型的预测结果产生很大偏差。但由于定性数据是不等距的,不符合回归分析中对自变量要求,如果直接把定性数据直接引入线性回归模型,结果很难解释,且容易存在很大偏差,此时则需要对定性因素(或分类变量)进行虚拟编码(dummy coding),将其转为虚拟变量,可以考虑将虚拟变量引入回归模型来解决此类问题。
那么我们在数据分析时,面对这种情况应该如何操作呢?因此,本期内容主要就这一问题进行展开,为大家整理了“虚拟变量及其应用”的相关资料分享给亲爱的小伙伴们~
本期内容主要从以下三个方面进行展开:
一、基础知识
二、如何设置虚拟变量?
三、如何应用?
01 基础知识
(一)基本概念
虚拟变量 ( Dummy Variables) 又称虚设变量、名义变量或哑变量,用以反映质的属性的一个人工变量,是量化了的自变量,通常取值为0或1。引入虚拟变量可使线形回归模型变得更复杂,但对问题描述更简明,一个方程能达到两个方程的作用,而且接近现实。
例如,反映文化程度的虚拟变量可取为:1:本科学历;0:非本科学历
(二)模型中引入虚拟变量的作用
1、分离异常因素的影响:例如分析我国GDP的时间序列,必须考虑"**"因素对国民经济的破坏性影响,剔除不可比的"**"因素。
2、检验不同属性类型对因变量的作用,例如工资模型中的文化程度、季节对销售额的影响。
3、提高模型的精度,相当于将不同属性的样本合并,扩大了样本容量(增加了误差自由度,从而降低了误差方差)
(三)虚拟变量数量的确定
虚拟变量的数目不是越多越好,也不是越少越好。虚拟变量的数目设定规则:若定性因素有互斥的类型(或者水平)m个,在考虑截距项的模型中按照需要引入m-1个虚拟变量,如果引入m个虚拟变量就会产生完全的多重共线性。在不考虑无截距项的模型中,定性因素有互斥的类型(或者水平)m个,按照需要引入m个虚拟变量,不会导致完全多重共线性。
(四)虚拟变量的0和1的选取原则
虚拟变量取1或0的原则,应从分析问题的目的出发。一般地,在虚拟变量的设置中:基础类型、肯定类型取值为1;比较类型,否定类型取值为0。
(五)虚拟变量示例:
假设某研究试图考察影响产品销售量的因素,其中一个自变量是广告形式,共有3个类别(K=3):新闻式、提问式、夸耀式。对该分类自变量进行虚拟编码,可得到2个新的变量。此时新闻式广告为参考类别,在X1和X2:上都编码为0,提问式和夸耀式分别在X1和X2上编码为1(详见下表):
02 如何设置虚拟变量?
首先在SPSS中打开数据:本例仍以“广告形式”自变量,月销售量(万件)为因变量。然后对定性变量(分类变量)进行虚拟编码,操作如下:
1、转换 → 重新编码为不同变量
2、将需要转换为虚拟变量的广告形式因素选入数字变量->输出变量框中,在名称框中输入转变的第一个虚拟变量名字形式1,并点击“更改”进行命名。
3、点击“旧值和新值”进入重新编码的对话框。在“旧值”中的“值”框中填写1,在“新值”中的“值”框中填写1,并点击Add添加,得到1->1。
4、然后选择“旧值”中的“所有其他值”,在“新值”中的“值”框中填写0,并点击添加,得到ELSE->0
5、上述步骤表示将原有变量广告形式中第1分类,在虚拟变量形式1中赋值为1,将其他所有分类在虚拟变量形式1中赋值为0。
按照同样的方法,我们可以生成形式2和形式3,共3个虚拟变量。如果觉得生成3个虚拟变量很麻烦,我们可以进入程序编辑页面,编写一条简单的程序进行重新编码赋值,如下图所示。(此处:STYLE为广告形式;Style1为形式1,以此类推)
?
? ? ??
赋值完成后,我们就可以在数据视图界面看到新生成的3个虚拟变量。
虚拟变量生成好后,我们就可以开始进行数据分析了。
03 如何应用?
(一)虚拟变量的回归
虚拟变量生成好后,我们就可以开始进行多重线性回归了。此处以新闻式广告作为参考类别。进行回归。具体操作如下:
1、分析 →回归 → 线性回归
将月销售量选入“因变量”框中,由于新闻式广告(形式1)作为参考类别,因此此处将形式2、形式3一同选入自变量(s)框中,“方法”选择“进入”法,点击确定完成操作。
2、结果解读
?我们通过重新编码将广告形式转化为3个虚拟变量,分别为形式1、2、3,代表新闻式、提问式和夸耀式,此时参照为新闻式。在α=0.05的检验水准下,形式2、3回归系数检验P值均<0.05,且t<0,表明提问式和夸耀式两种广告形式的月销售量均显著低于新闻式广告下的月销售量。
注意事项:
在如何选择虚拟变量的参照组时需要注意的是,被选为参照的那一类分组,应该保证有一定的样本量。如果参照组样本量太少,则将会导致其他分类与参照相比时,参数估计的标准误较大,可信区间较大,精度降低,会出现估计参数极大或极小的现象。
(二)调节变量为虚拟变量时,如何进行模型检验?
此处仍以月销售量(万件)为因变量,而将广告形式作为调节变量,将每日广告投放时长(h/天)作为自变量。进行process检验。具体操作如下:
1、不需要将虚拟化后的变量放入,只需将“广告形式”放入调节变量框中,投放时长放入自变量框中,将月销售量置于因变量框中,如下图所示:
2、对调节变量广告形式进行虚拟化的设置:
3、点击继续,点击确定即可
参考文献:
[1]戴金辉.(2019).虚拟变量回归及其应用. 统计与决策(05),77-80.
[2]曹玉茹.(2018).虚拟变量回归在SPSS中的分析与实现. 统计与决策(10),66-69.
[3]郭少阳,郑蝉金 & 陈彦垒.(2018).方差分析与回归分析的整合:虚拟变量与设计矩阵. 统计与决策(12),25-28.
[4]虚拟变量回归.HardyMA,贺光烨译.格致出版社.2016
? ? 以上就是本期内容的分享,如果能对小伙伴有一点点帮助,小编已经觉得值了!!
END
关注momo老师
码字不易,如果对您有帮助,烦请动动小手点赞、转发、评论~谢谢~
本文由站内用户发布,不代表喵趣网立场,如有侵权请联系本站删除!欢迎转载分享!