使用这个功能,需要先加载分析工具库,具体加载的办法如下。
1、打开“文件-选项”,在弹出的选项卡中,选择加载项,然后点击转到。
2、在弹出的“加载项”中,勾选分析工具库,然后点击确定。之后在“数据”工具栏中就出现“数据分析”,一般在最右边。
3、点击“数据分析”,选择回归,点击确定,进入回归分析界面。
4、回归分析界面
y值输入区域,选择g列数据;x值输入区域,选择a列-f列数据。
表示我看y为变量x1-x6的线性关系,表达式类似:
y=a*x1+b*x2+c*x3+d*x4+e*x5+f*x6+i
常数为零的选项表示,如果你确定线性关系中不存在常数项,就可以勾选。比如如果所有自变量均为0,y值肯定为0的情况下。
置信度,一般情况下是95%。
之后点击确定(后面的选项根据实际情况勾选即可)。
5、输出了很多参数,不一一解读具体每个参数在统计上是如何计算出来的,只看最重要的几个参数的含义。
第一个表格回归统计
multiple r:相关系数,一般在-1~1之间,绝对值越靠近1则相关性越强,越靠近0则相关性越弱;
r square:相关系数的平方,表达自变量解释因变量变异的程度,以测定y的拟合效果;
adjusted r square:调整后的r square,说明自变量能说明因变量百分比,和b的区别在于,通常一元回归的时候看b项多,而多元回归时候看c项多;一元回归即自变量只有一个,多元回归即自变量有多个,本例是有6个自变量;
标准误差:用来衡量拟合程度的大小,也用于计算与回归相关的其它统计量,此值越小,说明拟合程度越好;
更多的时候需要看adjusted r square,因为很多情况下人为增加自变量,r square就会变大,但adjusted r square不会。
第二个表格方差分析
significance f(f显著性统计量)的p值,以统计常用的0.05显著水平为例,这个值小于0.05,则f检验通过,说明整体回归方程显著有效。如果在回归分析的界面填写的置信度是99%,则需要这个值小于0.01。
f检验用来检验总体回归关系的显著性,f检验的原假设是所有回归系数都等于0,所以f检验通过的话说明模型总体存在,f检验不通过,其他的检验就别做了,因为模型所有参数不显著异于0,相当于模型不存在。
第三个表
coefficients(回归系数):intercept对应截距项,即常数项i,之后依次是每个自变量的系数(a-f);
t stat:t检验中统计量t值,用于对模型参数的检验。经常一元回归可以看f检验或者回归统计基本能支撑判断,但对于多元线性回归,t检验就不可缺省了;
p-value:t检验对应的p值;
t检验可以检验各个回归系数显著性,原假设是对应的系数为0。如果各个回归系数对应的t检验的p值大于0.05,则说明该系数可以为0,即对应的自变量与因变量没有啥关系,可以在回归方程中去掉相应的项。
本例中只有x3,x4对应的p值小于0.05,说明这些项的自变量与因变量不存在相关性(数值的越大,可以认为越不相关),因此这些项的回归系数可以为0。
6、因为上面的结果显示很多自变量与y相关性很差,为了排除这些变量的影响,重新进行回归分析过程。
这次在x值输入区域,只选择变量x3与x4
7、因为减少了无关变量,可以看到r square下降比较多,但adjusted r square也略有下降,及标准误差略有提高。
说明排除的变量中,有部分变量对y值有影响,但相关度较小。
8、为了得到更好的预测效果,再次调整自变量。这次我们增加变量x2,因为变量x2的第一次的回归分析结果p值0.08,虽然高于0.05,但是其他几个变量中最小的一个。这次的结果如下。
adjusted r square比前两次都高,标准误差比前两次都底,显然这是一个更好的预测结果。
据此可得出估算的回归方程为:
y=3884.996*x2+935.214*x3+916.253*x4-52854.189
补充
excel的回归分析功能仅支持线性回归,如果是其他回归模型,则需要转化为线性回归。比如多项式回归,增加一个变量x1的平方,或者x1*x2即可。