统计计量丨To Take Log, or Not to Take Log (取对数，还是不取对数)

查看原文

其他

统计计量丨To Take Log, or Not to Take Log (取对数，还是不取对数)

数据Seminar 2021-06-03

The following article is from 计量经济学及Stata应用 Author 陈强

“

To take log, or not to take log: that is the question.

——An econometric student

”

取对数，还是不取对数，这是一个问题，而且还是计量实证研究的常见问题。究竟是否应将变量取对数，不同人有不同的理由，其中既有好的理由，也有不太好的理由。本文较为详尽地探讨了这些理由，相信读完之后，你应该能自行判断了吧。

首先谈谈取对数的好理由

Good Reason #1

经济理论要求变量取对数

有时经济理论要求将变量取对数。耳熟能详的例子为估计如下Cobb-Douglas生产函数：

显然，应将此方程两边同时取对数，转换为线性回归模型，以便于估计：

另一经典例子为估计教育投资的回报率：

在此，被解释变量为工资对数（lnwage），而非工资本身（wage），其主要依据来自劳动经济学的明瑟模型（the Mincer Model）。其基本逻辑是，个体选择多上一年学，则需推迟一年挣钱（这些放弃的收益还可利滚利）；为弥补此损失，市场均衡条件要求给予受教育多者更高的收入。根据该模型的推导，即可得到上式。

Good Reason #2

研究者感兴趣于弹性或半弹性

在很多情况下，经济理论并不能告诉我们，究竟是否应将变量取对数。此时，如果研究者感兴趣于弹性（elasticity）或半弹性（semi-elasticity），则可考虑将变量取对数。

比如，在上述教育投资回报率的方程中，参数

就是半弹性。如果忽略扰动项，则有：

通常受教育年限（schooling）的单位为年，如果

，则当教育年限增加一年，工资收入将平均增加 6%：

类似地，如果解释变量与被解释变量都取对数，比如：

则回归系数可解释为弹性:

需要指出的是，只要你关心弹性或半弹性，即使变量本身就是百分比（比如，取值介于0与1之间），在原则上也是可以取对数的。

Good Reason #3

变量有指数增长的趋势

对于时间序列而言，有些经济变量可能存在指数增长（exponential growth）的趋势。比如，在1978-2013年，中国 GDP（1978年不变价格，亿元）的时间趋势如下图。

带指数增长趋势的变量显然是非平稳的（nonstationary），因为它的期望值呈指数增长。如果将 GDP 取对数，不难看出 lnGDP 的增长趋势变为线性：

进一步，如果将 lnGDP 的线性增长趋势去掉（比如，通过回归的方法），即可得到一个平稳过程，则称此 lnGDP 为 “趋势平稳过程”（trend stationary process）。在实践中，一般只需要在回归中加入一个时间趋势项（

），或加入时间虚拟变量，即可将趋势平稳序列按照平稳过程来处理。

Good Reason #4

取对数可更好地拟合数据

如果以上三种理由均不存在，也可以根据拟合优度（

）的高低来选择是否取对数。需要注意的是，如果两个回归方程的被解释变量不同，则它们的拟合优度并没有可比性。比如，方程

的拟合优度与方程

的拟合优度不可比。但前者的拟合优度与下列方程则有可比性：

因为二者的被解释变量都是

。此外，在实践中，有时研究者也选择取对数，以得到对自己更有利的结果，比如使得关键变量更为显著。这似乎也无可厚非，只要取对数在理论上说得过去。

再谈谈取对数不那么好的理由

Not So Good Reason #1

因为变量取值均为正，所以取对数

一般来说，只有变量取值均为正，才能对变量取对数。但 “取值为正” 只是取对数的前提，并不意味着必须或应该取对数。

事实上，即使变量有时取值为0，如果想取对数，也是可以变通的。常用的变换是将

作为解释变量。这样，即使存在 “

” 的观测值，

也都有定义。比如，考虑如下回归方程：

此时，虽然回归系数

仍可解释为弹性，但它实际上指的是当

增加1%，被解释变量

平均会增加百分之几。

Not So Good Reason #2

使变量的分布更接近于正态分布

对于非对称的分布，特别是右偏的分布，通过取对数常可以使其分布变得对称，从而更接近于正态分布。

比如，某样本的工资收入分布如下图，明显右偏（右边有长尾巴）。

再来考察取工资对数的分布，就基本对称或接近于正态分布了:

然而，取对数并非是使变量的分布变得接近正态的灵丹妙药；有时也可能于事无补，特别当变量的分布存在双峰或多峰时。比如，某样本的受教育年限分布如下图，明显呈现双峰形态（分别对应于中学毕业与大学毕业）：

然而，取对数之后的受教育年限依然是双峰的（参见下图）：

进一步，当代计量经济学所通行的大样本理论（large sample theory），一般并不要求变量服从任何具体的分布（比如正态分布），只要使用中心极限定理即可照常进行统计推断。因此，使变量的分布更接近于正态分布其实也没有太大意义。

当然，如果你使用最大似然估计，并假设被解释变量服从正态分布（基于此写下似然函数），则通过取对数使得被解释变量的分布更接近于正态依然会有帮助。

Not So Good Reason #3

减少变量的异方差

也有人试图通过将被解释变量取对数，以缓解样本中的异方差现象。然而，异方差在当代计量经济学中已经基本不是问题，常规的解决方法就是使用（异方差）稳健标准误，然后照常进行统计推断即可。

总之，是否把变量取对数，在本质上为模型设定（model specification）问题，一般不需要通过选择是否取对数来达成其他目的；比如，使得变量分布更接近于正态，或减少异方差。

_________________________________

参考文献

陈强，《高级计量经济学及Stata应用》，第2版，高等教育出版社，2014年。

陈强，《计量经济学及Stata应用》，高等教育出版社，2015年。

►一周热文

数据呈现丨R语言学习笔记之热图绘制

统计计量丨再论OLS：核心变量与控制变量的区别

统计计量 | 用R做多元线性回归分析（文末有福利）

统计计量丨倾向得分匹配：psmatch2 还是 teffects psmatch

机器学习丨Why Machine Learning: 我应该学机器学习吗？

数据呈现 | 气泡图：绘制带权重的散点图

统计计量丨工具变量法（五）: 为何第一阶段回归应包括所有外生解释变量

数据Seminar

这里是大数据、分析技术与学术研究的三叉路口

作者：陈强出处：计量经济学及Stata应用推荐：简华（何年华）编辑：青酱

欢迎扫描👇二维码添加关注

一把短刀，怎么就让他连捅18人？！

向杨大市长道歉

向不容妄议的杨市长道歉

以色列搞大了：伊朗说要直接出兵参战

黄晓菁，这位杭州泰隆银行女员工自爆视频火了，带给我们那些思考？