查看原文
其他

老姚专栏丨线性回归:代数与直觉

姚耀军 数据Seminar 2021-06-03

本文共3358个字,细读大约需要10分钟


#01
最小二乘法
最小二乘法是一种非常经典的估计方法,斯蒂芬·斯蒂格勒在《The History of Statistics》指出——

最小二乘法是十九世纪统计学的主题曲。从许多方面来看,它之于统计学就相当于十八世纪的微积分之于数学。

我们不妨这样来理解最小二乘法的基本原理:如果建立一个模型来对变量的变动进行解释,那么对于变量的N个实际观测值,相应就存在N个来自于模型的预测值,这些值亦称拟合值若将视为N维空间的两个点,则从直觉上看,一个最具解释力的模型应该使这两个点的距离最近。基于此种想法,就可以建立一个最优化数学模型,进而根据优化条件求解出模型参数估计值。
问题是,一个“最具解释力”的模型究竟有多大的解释力呢?显然,我们可以用目标函数值来进行逆向衡量,该值亦称残差平方和(根据欧式距离公式,真正的目标函数值应该再加上一个根号,但这只是一个单调变换,除了增加数学处理的难度,并不会改变问题的本质)。不过,这一逆向衡量方式的不方便之处是,解释力的数值大小取决于被解释变量的量纲。例如,若表示婴儿体重,则用克而非千克作为单位,会导致残差平方和放大百万倍。那么,我们能否通过设计一个相对指标来予以改进呢?这就引出了模型拟合优度概念。
既然要设计相对指标,就必须寻找一个基准。为此,我们不妨问这样一个问题:对变量的变动进行解释的最简单模型是什么?答案或许是均值。如果我们用来作为的拟合值,那么就逆向衡量了这个最简单模型的解释力。朋友们读到这里,应该立即会想到一个逆向衡量模型解释力的相对指标——。该指标衡量的是一个模型相对于简单模型的解释力,其关键优点是与被解释变量的量纲无关。
进一步地,鉴于逆向衡量没有正向衡量那么方便,于是我们可以用来作为一个正向衡量模型解释力的相对指标。该指标被称为模型拟合优度,在线性回归模型框架下,其就是著名的R2指标。
值得指出的是,以均值作为基准模型,不仅解决了如何更好衡量模型解释力的问题,而且能让我们对最小二乘法的基本原理有一个更直观的理解——面对很多竞争性模型,最小二乘法定下的竞争规则是,以最简单的模型作为标尺,解释力最强的模型就是最好的模型。



#02

普通最小二乘法

最小二乘法若运用于线性模型,则被称为普通最小二乘法(OLS);若用于非线性模型,则被称为非线性最小二乘法(NLS)。OLS与NLS的最大区别在于,关于估计参数,前者存在解析解,而后者一般不存在解析解。
从代数上看,OLS的精要之处体现于所谓的正规方程,而这些方程均来自于最优化问题的一阶条件。假设有1个截距参数、K个斜率参数待估计,那么就有K+1个关于估计参数的线性正规方程——其实这解释了计量经济学模型的线性与非线性之分为什么是基于参数而言的,因为我们关心的是估计参数的求解问题
这些正规方程构成一个联立方程组,进而可以获得K+1个估计参数的解析解。不过根据基本的代数知识,由K+1个线性方程并不一定能解出K+1个未知数的解,除非这些方程是独立的。是的,正是为了让正规方程组有解析解,计量经济学才会提出解释变量非完全共线这一假定,以保证正规方程的独立性。
第一个正规方程表明:残差的均值等于0。如果截距参数不需要估计,那么就没有此正规方程(反过来这意味着,模型带有一个需要估计的截距参数,就能够保证残差的均值一定等于0)。残差均值等于0具有双重含义:首先,尽管让模型完全拟合每一个数据点也许属于奢望,但OLS能够保证,平均来看模型是可以完全拟合样本数据其次,由模型所形成的直线、平面或者超平面,会恰好穿过数据集合的中心位置
第二个正规方程表明:残差与第一个解释变量正交,即。当残差的均值等于0时,正交就意味着两者样本不相关,即,或者说样本协方差。残差与不相关的含义是:OLS能够保证变量对变量的解释潜力被充分挖掘——若非如此,则残差一定还含有能够解释的信息,从而使得残差与相关。
余下正规方程的含义与第二个正规方程类似,不予赘述。现在可以总结一下OLS的性质了:它能够让模型 get the center point of data,平均而言完全拟合样本数据;它也尽力“榨干”所有解释变量的解释潜力,之后才会把那些真正无法解释的东西扔进残差项。从直觉上看,这些都是非常良好的代数性质,这也解释了OLS为什么会成为计量经济学的Benchmark。



#03

一元线性回归

鉴于一元线性回归方程是多元线性回归方程的特例,我们首先考虑一个多元线性回归模型,并对K+1个参数中的部分参数施加约束。例如,规定某些参数等于0。显然,相对而言,无约束的多元线性回归是一个全局最优问题,而有约束的多元线性回归是一个局部最优问题。全局最优应该不劣于局部最优,这意味着全局最优下的残差平方和应该小于或者等于局部最优下的残差平方和,这进而表明,无约束多元线性回归模型的解释力或者说R2应该大于或者等于有约束多元线性回归模型的解释力或者说R2换句话说,向模型加入更多的解释变量,通常会使R2变大,至少不会使其减少。
一元线性回归模型是一个带有特殊约束条件的多元线性回归模型,而这个特殊的约束条件就是:在K个斜率参数中,有K-1个斜率参数等于0。换言之,我们只需要估计一个斜率参数。根据前面的结论可知,一元线性回归模型的R2应该小于等于多元线性回归模型的R2
有必要指出的是,如果分别用一元线性回归模型与多元线性回归模型来估计一个我们感兴趣的斜率参数,那么前者的估计精度通常更高,而这源于一个基本的原理:估计时所用信息越多,估计就越精确。具体来说,在一个一元线性回归模型中,唯一解释变量的全部变异信息(Variation)都被用来估计其所对应的斜率参数。但在一个多元线性回归模型中,估计某一解释变量所对应的斜率参数仅用到该解释变量与其他解释变量不相关的那一部分信息
最后,我们再从几何角度来理解一元线性回归模型的截距与斜率参数的估计。截距参数的估计等价于,我们试图通过上下平移拟合直线,来使得此直线经过数据集的中心位置。斜率参数的估计等价于,我们试图通过围绕数据集中心位置旋转拟合直线,来使得解释变量与残差不相关——与数据趋势相比,若拟合直线过于平坦,则解释变量与残差正相关;若拟合直线过于陡峭,则解释变量与残差负相关。




#04

矩估计

截距与斜率参数的估计都只是对真实的截距与斜率参数的近似,这意味着残差(Residual)是对误差(Error)的近似。我们知道,OLS能够保证残差均值为0,残差与解释变量样本不相关。但如果误差的期望值不等于0,误差与解释变量相关,那么此时残差对误差的近似程度就很差,进而意味着OLS方法不是一种好的估计方法。
阅读到这里,具有一定计量经济学基础的朋友会马上想到高斯马尔科夫定理——当模型满足高斯马尔科夫假定时,OLS估计量在所有线性无偏估计量中最有效。在高斯马尔科夫假定中,有两个至关重要的假定:误差的期望值为0;误差与解释变量不相关。
计量经济学初学者通常会把关注点放在高斯马尔科夫定理的证明上。其实,如何证明只是一个纯粹的数学问题,而真正令人感兴趣的问题是,统计学家们是怎么想到这些假定的呢根据前文的分析,显然,OLS方法若要成为一种好的估计方法,则至少“误差的期望值为0”与“误差与解释变量不相关”这两个假定必须成立。或许正是这一点,启发统计学家们提出了高斯马尔科夫假定。
如果“误差的期望值为0”与“误差与解释变量不相关”这两个假定成立,那么OLS本质上属于一种矩估计。所谓矩估计,就是用样本矩来代替总体矩就OLS而言,“误差的期望值为0”与“误差与解释变量不相关”这两个假定均属于总体矩条件。由于误差无法观测,我们不得不用残差来近似之。相应地,样本矩条件就为“残差的均值为0”与“残差与解释变量样本不相关”。
就一元线性回归模型而言,我们很容易根据“残差与解释变量样本不相关”这一矩条件反推出斜率参数估计的公式,其具体过程如下:
在这里,分别代表样本协方差与方差。
学过证券投资学的朋友见到上述推导结果应该会想起β系数——该系数用来衡量个股相对于整个股市的价格波动情况,是一种评估个股系统性风险的重要工具。如果我们将一元回归模型中的视为个股收益率,将视为对无风险收益率的估计,将视为市场指数收益率,那么正是对β系数的估计。这一估计之所以有道理,根源于的波动反映了系统风险,所近似的误差的波动反映了个股的非系统风险,而从理论上看,应该不相关——市场指数包含了所有个股,故其非系统风险已得到充分分散,只剩下不能被分散的系统性风险。







企研学术顾问 · 耀军


姚耀军,1976年出生,湖北利川人,浙江工商大学金融学院教授、博士生导师,浙江省高校中青年学科带头人,浙江省首期之江青年社科学者,浙江省“151人才工程”第三层次培养人员,杭州市“十三五”哲学社会科学应用经济学学科组评审专家,企研数据学术顾问。长期从事金融发展理论与实证研究,在《China & World Economy》《Frontiers of Economics in China》《金融研究》《数量经济技术经济研究》《财贸经济》《中国农村经济》等学术期刊上发表论文多篇,部分成果被《新华文摘》《中国法经济学研究》《中国经济的转型升级:新结构经济学方法与应用》《高等学校文科学术文摘》《人大复印资料》收录或者转载。主持教育部人文社科项目、浙江社会科学基金重点项目、浙江省自然科学基金项目等纵向课题多项。荣获中国制度经济学年会优秀论文奖、全国金融硕士教学案例大赛优秀案例奖、浙江省高校优秀科研成果一等奖、《金融研究》优秀论文奖、《财经研究》创刊60周年优秀论文一等奖等荣誉。担任《金融研究》《财经研究》等多个学术期刊的审稿专家。



►一周热文

统计计量 | 数据科学家应该避免的5种统计陷阱

数据呈现丨Python数据可视化:5段代码搞定散点图绘制与使用,值得收藏

软件应用丨一文搞定SQL增删查改和函数使用

软件应用丨为什么Python是数据科学领域最受欢迎的语言之一?

欣闻丨2月12日,新增确诊病例数下降48.2%!还有哪些好消息?

欣闻|2月11日,从确诊到治愈,我们看到了越来越多好消息

欣闻丨2月10日,好消息如期而至,来看看今天有哪些?!









数据Seminar




这里是大数据、分析技术与学术研究的三叉路口




作者:姚耀军审阅:杨奇明编辑:青酱






    欢迎扫描👇二维码添加关注    

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存