完全多重共线性和遗漏变量偏差是什么?

2025-03-09 08:37:49
推荐回答(1个)
回答1:

楼上有误。
遗漏变量会引起估计系数大小有偏,而自相关和异方差只会带来统计量(T值)有偏,也就是影响显著性,系数是无偏的。
再来解释你的问题。
遗漏变量是指,你遗漏的变量既与自变量有关,又与因变量有关。比如你的身高是x,树的高度是y,把树每年的高度对你每年的身高做回归,系数肯定显著为正。但是你遗漏了时间这个变量。其实你的身高和树的身高并没有关系,只不过都随着时间长高而已。
另外,多重共线性和线性相关是不一样的。线性相关就是你说的,一个变量可以用另一个变量表示。用向量的语言来说,就是两个变量是共线的。而多重共线性是说,两个变量的向量是夹角小于90度大于0度(如果完全无关,则向量夹角为90度)。
多重共线性是普遍存在的。两个自变量之间有多重共线性是很正常的,只要vif<10,就对结果影响不大。顺便一说,多重共线性也能保证结果无偏,只是影响显著性。而如果vif<10,则显著性的影响也不大,可以不用考虑。
所以,加入遗漏的相关的变量,可能会出现多重共线性,但一般不会线性相关。如果多重共线性太严重,可以考虑换个指标什么的。