1、时间序列和面板数据, 都要做平稳的单位根检验, 取对数一般能使序列平稳(stationary), 不然就取差分进行平稳。
2、能使模型的残差呈现随机的特性, 而不是趋势或者截距。
3、减少共线性和异方差(heteroscedasticity)出现的概率。
4、有经济学意义上, 比如增长率, 变化率和弹性。
5、统计学认为变量具有内在的指数增长的趋势, 取对数可以让联合分布 (对应的F-statistics)呈现正态, level形式的数据, 特别是时间序列, 最好做Lavene检验。
6、Log-linearization,取对数方便最小二乘的线性拟合,乘积运算用对数就变成了求和。
扩展资料:
如果
,即a的x次方等于N(a>0,且a≠1),那么数x叫做以a为底N的对数(logarithm),记作
。其中,a叫做对数的底数,N叫做真数,x叫做“以a为底N的对数”。
特别地,我们称以10为底的对数叫做常用对数(common logarithm),并记为lg。称以无理数e(e=2.71828...)为底的对数称为自然对数(natural logarithm),并记为ln。
零没有对数。
在实数范围内,负数无对数。在虚数范围内,负数是有对数的。事实上,当
则有e(2k+1)πi+1=0,所以ln(-1)的具有周期性的多个值,ln(-1)=(2k+1)πi。这样,任意一个负数的自然对数都具有周期性的多个值。例如:ln(-5)=(2k+1)πi+ln 5。对数在数学内外有许多应用。这些事件中的一些与尺度不变性的概念有关。例如,鹦鹉螺的壳的每个室是下一个的大致副本,由常数因子缩放。这引起了对数螺旋。Benford关于领先数字分配的定律也可以通过尺度不变性来解释。对数也与自相似性相关。
例如,对数算法出现在算法分析中,通过将算法分解为两个类似的较小问题并修补其解决方案来解决问题。自相似几何形状的尺寸,即其部分类似于整体图像的形状也基于对数。对数刻度对于量化与其绝对差异相反的值的相对变化是有用的。
此外,由于对数函数log(x)对于大的x而言增长非常缓慢,所以使用对数标度来压缩大规模科学数据。对数也出现在许多科学公式中,例如Tsiolkovsky火箭方程,Fenske方程或能斯特方程。
参考资料:百度百科-对数
告诉你为什么数据要取对数
平时在一些数据处理中,经常会把原始数据取对数后进一步处理。之所以这样做是基于对数函数在其定义域内是单调增函数,取对数后不会改变数据的相对关系,取对数作用主要有:
1. 缩小数据的绝对数值,方便计算。例如,每个数据项的值都很大,许多这样的值进行计算可能对超过常用数据类型的取值范围,这时取对数,就把数值缩小了,例如TF-IDF计算时,由于在大规模语料库中,很多词的频率是非常大的数字。
2. 取对数后,可以将乘法计算转换称加法计算。
3. 某些情况下,在数据的整个值域中的在不同区间的差异带来的影响不同。例如,中文分词的mmseg算法,计算语素自由度时候就取了对数,这是因为,如果某两个字的频率分别都是500,频率和为1000,另外两个字的频率分别为200和800,如果单纯比较频率和都是相等的,但是取对数后,log500=2.69897, log200=2.30103, log800=2.90308 这时候前者为2log500=5.39794, 后者为log200+log800=5.20411,这时前者的和更大,取前者。因为前面两个词频率都是500,可见都比较常见。后面有个词频是200,说明不太常见,所以选择前者。
从log函数的图像可以看到,自变量x的值越小,函数值y的变化越快,还是前面的例子,同样是相差了300,但log500-log200>log800-log500,因为前面一对的比后面一对更小。
也就是说,对数值小的部分差异的敏感程度比数值大的部分的差异敏感程度更高。这也是符合生活常识的,例如对于价格,买个家电,如果价格相差几百元能够很大程度影响你决策,但是你买汽车时相差几百元你会忽略不计了。
4. 取对数之后不会改变数据的性质和相关关系,但压缩了变量的尺度,例如800/200=4, 但log800/log200=1.2616,数据更加平稳,也消弱了模型的共线性、异方差性等。
5. 所得到的数据易消除异方差问题。
6. 在经济学中,常取自然对数再做回归,这时回归方程为 lnY=a lnX+b ,两边同时对X求导,1/Y*(DY/DX)=a*1/X, b=(DY/DX)*(X/Y)=(DY*X)/(DX*Y)=(DY/Y)/(DX/X) 这正好是弹性的定义。
当然,如果数据集中有负数当然就不能取对数了。实践中,取对数的一般是水平量,而不是比例数据,例如变化率等。
原因是
(1) 时间序列和面板数据, 都要做平稳的单位根检验, 取对数一般能使序列平稳(stationary), 不然就取差分进行平稳.
(2) 能使模型的残差呈现随机的特性, 而不是趋势或者截距.
(3) 减少共线性和异方差(heteroscedasticity)出现的概率
(4) 有经济学意义上, 比如增长率, 变化率和弹性.
(5) 统计学认为变量具有内在的指数增长的趋势, 取对数可以让联合分布 (对应的F-statistics)呈现正态, level形式的数据, 特别是时间序列, 最好做Lavene检验
(6) Log-linearization 取对数方便最小二乘的线性拟合, 乘积运算用对数就变成了求和.
使得数据收敛,并且尽量在(0,1)之间,好处理。