目 录
一、简介
本文使用Stata官方数据auto.dta, 该数据为美国1978年汽车相关数据,对其进行回归分析,对回归的表格相关指标进行详细的解释。假定模型如下:
| | | |
| | | |
| | | |
| | | |
| | | |
| | | |
| | | |
| | | |
| | | |
| | | |
| | | |
| | | |
| Root Mean square of error | | |
| | | |
| | | |
| The standard error of the coefficient | | |
| | | |
| | | |
| | | |
对应到上文的回归结果中即,即价格的原始数据减去均值。对应到上文的回归结果中即,即价格的预测值减去均值。对应到上文的回归结果中即,即价格的样本原始数据减去样本预测值。 | | | |
| | | |
| | | 模型中回归系数4个加上常数共计5个估计系数,所以(k+1)-1=k=4,其中K表示解释变量个数 |
| | | 样本量-约束条件=n-(k+1)=n-k-1=74-4-1=69 |
(1).Total-总平方和TSS:样本量-动不了的均值=n-1(2).Explained-平方和SSE:未知参数个数-动不了的那个均值=(k+1)-1=k(3).Residual-残差平方和SSR:样本量-约束条件=n-(k+1)=n-k-1代表了模型中因变量可由自变量解释的方差百分比。换句话说,显示数据与回归模型的拟合程度(拟合优度)6、 Adj R-squared:调整拟合优度、调整R-squared无法控制变量的增加而导致过度拟合,Adj R-squared则在此基础上,引入了自变量的个数这一因素,以更加准确地评估模型的拟合效果。在多元线性回归模型中,当自变量的数量增加时,R-squared也会随之增加。但是,当自变量的数量增加时,也容易出现过拟合(overfitting)现象,导致模型的预测能力下降。因此,为了避免过拟合,我们需要使用Adj R-squared对R-squared进行修正。Adj R-squared可以更精确地反映自变量对因变量的解释程度,避免了因自变量数量增加而导致的过拟合问题,是多元线性回归模型中一个比较重要的评估指标。可以看出,调整的R2随k的增加而减小,(n是样本个数,在调查之后分析时,是固定的),可以识别自变量个数对R2的影响。经验上,一般当k:n大于1:5时,R2会高估实际的拟合优度,这时,宜用调整后的R2来说明方程的拟合优度,也就是自变量对y的解释能力。H0:所有的系数为0,即所有解释变量联合对被解释变量影响不显著。H1:所有的系数不为0,即所有解释变量联合对被解释变量影响显著。P值是F统计量对应的概率,,通常有模型在1%、5%、10%水平下拒绝原假设,从而认为自变量对因变量影响的显著水平,也可以说模型在1%、5%、10%水平上显著。P值由F值查表得出。P值指的是假设检验中得到的显著性水平,其英文单词为"p-value"。其中,p表示概率(probability),value则代表一个数值,即显著性水平。P值是小于1的,如果小于1%、5%、10%,则拒绝原假设,接受备择假设,也可以说模型在1%、5%、10%水平上显著。本文的F统计量为36.10,对应的伴随概率P值为0,说明在1%的显著性水平下,以上4个解释变量对价格的影响是显著的。 | | |
| | |
| | |
| | 解释变量对被解释变量是在10%的显著水平下是显著的 |
衡量模型中的误差项的大小,Root MSE越大,误差越大,Root MSE越小越好。在本文中weight的系数为-0.004,,说明在其他因素不变的情况下,汽车重量每增加1%,将导致汽车价格降低0.004%。同时Foreign的系数为-1.99,说明在其他因素不变的情况下进口车价格比国产车价格低-1.99。(注:由于为示例,所以回归结果并不符合实际。)t检验中的字母t来源于英文单词"t-distribution",也就是t分布。T分布是一种概率分布函数,是一类常用于小样本假设检验的概率分布。T分布的形态与自由度有关,当自由度越大时,T分布越趋近于标准正态分布。在t检验中,t值的计算需要用到样本均值、标准差和样本量,然后再根据自由度和置信水平查找t分布表,得到检验的p值,以此来判断是否拒绝零假设。16、95% Conf. Interval:95%置信区间95%置信区间,表示回归系数的取值范围,该范围有效的概率是95%。回归系数的置信区间可以用来估计某个回归系数的真实值有多大的概率落在一个指定的置信区间范围内。回归的标准误差是一个衡量统计可靠性的重要指标,它减小了估计变量的误差,提高了置信区间的准确性。我们可以使用置信区间公式计算置信区间,计算出拟合回归系数的上下限值,即常说的置信区间。拟合系数的置信区间是根据概率统计理论确定的,常常可以用于估计与待定参数有关的信息,预测估计误差,同时也可用于检验统计假设。