查看原文
其他

统计计量丨To Take Log, or Not to Take Log (取对数,还是不取对数)

数据Seminar 2021-06-03

The following article is from 计量经济学及Stata应用 Author 陈强



To take log, or not to take log: that is the question.  


——An econometric student





取对数,还是不取对数,这是一个问题,而且还是计量实证研究的常见问题。究竟是否应将变量取对数,不同人有不同的理由,其中既有好的理由,也有不太好的理由。本文较为详尽地探讨了这些理由,相信读完之后,你应该能自行判断了吧。



首先谈谈取对数的好理由



Good Reason #1 

经济理论要求变量取对数

有时经济理论要求将变量取对数。耳熟能详的例子为估计如下Cobb-Douglas生产函数:
显然,应将此方程两边同时取对数,转换为线性回归模型,以便于估计:
另一经典例子为估计教育投资的回报率:
在此,被解释变量为工资对数(lnwage),而非工资本身(wage),其主要依据来自劳动经济学的明瑟模型(the Mincer Model)。其基本逻辑是,个体选择多上一年学,则需推迟一年挣钱(这些放弃的收益还可利滚利);为弥补此损失,市场均衡条件要求给予受教育多者更高的收入。根据该模型的推导,即可得到上式。

Good Reason #2 

研究者感兴趣于弹性或半弹性

在很多情况下,经济理论并不能告诉我们,究竟是否应将变量取对数。此时,如果研究者感兴趣于弹性(elasticity)或半弹性(semi-elasticity),则可考虑将变量取对数。
比如,在上述教育投资回报率的方程中,参数  就是半弹性。如果忽略扰动项,则有:
通常受教育年限(schooling)的单位为年,如果 ,则当教育年限增加一年,工资收入将平均增加 6%:
类似地,如果解释变量与被解释变量都取对数,比如:
 
则回归系数可解释为弹性:
需要指出的是,只要你关心弹性或半弹性,即使变量本身就是百分比(比如,取值介于0与1之间),在原则上也是可以取对数的。

Good Reason #3 

变量有指数增长的趋势

对于时间序列而言,有些经济变量可能存在指数增长(exponential growth)的趋势。比如,在1978-2013年,中国 GDP(1978年不变价格,亿元)的时间趋势如下图。

带指数增长趋势的变量显然是非平稳的(nonstationary),因为它的期望值呈指数增长。如果将 GDP 取对数,不难看出 lnGDP 的增长趋势变为线性:
进一步,如果将 lnGDP 的线性增长趋势去掉(比如,通过回归的方法),即可得到一个平稳过程,则称此 lnGDP 为 “趋势平稳过程”(trend stationary process)。在实践中,一般只需要在回归中加入一个时间趋势项(),或加入时间虚拟变量,即可将趋势平稳序列按照平稳过程来处理。

Good Reason #4 

取对数可更好地拟合数据

如果以上三种理由均不存在,也可以根据拟合优度()的高低来选择是否取对数。需要注意的是,如果两个回归方程的被解释变量不同,则它们的拟合优度并没有可比性。比如,方程的拟合优度与方程的拟合优度不可比。但前者的拟合优度与下列方程则有可比性:
因为二者的被解释变量都是  。此外,在实践中,有时研究者也选择取对数,以得到对自己更有利的结果,比如使得关键变量更为显著。这似乎也无可厚非,只要取对数在理论上说得过去。



再谈谈取对数不那么好的理由



Not So Good Reason #1  

因为变量取值均为正,所以取对数

一般来说,只有变量取值均为正,才能对变量取对数。但 “取值为正” 只是取对数的前提,并不意味着必须或应该取对数。
事实上,即使变量有时取值为0,如果想取对数,也是可以变通的。常用的变换是将  作为解释变量。这样,即使存在 “” 的观测值,  也都有定义。比如,考虑如下回归方程:
此时,虽然回归系数  仍可解释为弹性,但它实际上指的是当  增加1%,被解释变量  平均会增加百分之几。

Not So Good Reason #2  

使变量的分布更接近于正态分布

对于非对称的分布,特别是右偏的分布,通过取对数常可以使其分布变得对称,从而更接近于正态分布。

比如,某样本的工资收入分布如下图,明显右偏(右边有长尾巴)。

再来考察取工资对数的分布,就基本对称或接近于正态分布了:

然而,取对数并非是使变量的分布变得接近正态的灵丹妙药;有时也可能于事无补,特别当变量的分布存在双峰或多峰时。比如,某样本的受教育年限分布如下图,明显呈现双峰形态(分别对应于中学毕业与大学毕业):

然而,取对数之后的受教育年限依然是双峰的(参见下图):
进一步,当代计量经济学所通行的大样本理论(large sample theory),一般并不要求变量服从任何具体的分布(比如正态分布),只要使用中心极限定理即可照常进行统计推断。因此,使变量的分布更接近于正态分布其实也没有太大意义。
当然,如果你使用最大似然估计,并假设被解释变量服从正态分布(基于此写下似然函数),则通过取对数使得被解释变量的分布更接近于正态依然会有帮助。

Not So Good Reason #3 

减少变量的异方差

也有人试图通过将被解释变量取对数,以缓解样本中的异方差现象。然而,异方差在当代计量经济学中已经基本不是问题,常规的解决方法就是使用(异方差)稳健标准误,然后照常进行统计推断即可。
总之,是否把变量取对数,在本质上为模型设定(model specification)问题,一般不需要通过选择是否取对数来达成其他目的;比如,使得变量分布更接近于正态,或减少异方差。

_________________________________

参考文献

陈强,《高级计量经济学及Stata应用》,第2版,高等教育出版社,2014年。

陈强,《计量经济学及Stata应用》,高等教育出版社,2015年。











►一周热文

数据呈现丨R语言学习笔记之热图绘制

统计计量丨再论OLS:核心变量与控制变量的区别

统计计量 | 用R做多元线性回归分析(文末有福利)

统计计量丨倾向得分匹配:psmatch2 还是 teffects psmatch

机器学习丨Why Machine Learning: 我应该学机器学习吗?

数据呈现 | 气泡图:绘制带权重的散点图

统计计量丨工具变量法(五): 为何第一阶段回归应包括所有外生解释变量














数据Seminar

这里是大数据、分析技术与学术研究的三叉路口


作者:陈强出处:计量经济学及Stata应用推荐:简华(何年华)编辑:青酱











    欢迎扫描👇二维码添加关注    


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存