Теорема Гаусса — Маркова
Состоятельность и несмещенность МНКГоценок.
Случайной ошибки регрессии.
В большинстве случаев генеральная дисперсия случайной ошибки — величина неизвестная, поэтому возникает необходиn мость в расчете ее несмещенной выборочной оценки.
Несмещенной оценкой дисперсии случайной ошибки линейn ного уравнения парной регрессии является величина:
åe2
G2( )=S2( )= i−2, (1)
где n — объем выборки;
ei— остатки регрессионной модели:
e =y −y =y − 0− 1xi.
Оценка дисперсии, вычисляемая по формуле (1), также назыn вается исправленной дисперсией.
В случае множественной линейной регрессии оценка дисперn сии случайной ошибки вычисляется по формуле:
å iS2()=n−k−1,
где k — число оцениваемых параметров модели регрессии. Оценкой матрицы ковариаций случайных ошибок ov()буn
дет являться оценочная матрица ковариаций:
C( )=S2( )´In, (2)
где In — единичная матрица.
Оценка дисперсии случайной ошибки уравнения регрессии подчиняется c (хиnквадрат) закону распределения с (n — k — 1)
степенями свободы, где k — число оцениваемых параметров. Докажем несмещенность оценки дисперсии, т. е. необходимо
доказать, что E(S2( ))=G2( ).
Примем без доказательства следующее выражения: E(S2( ))= n−1´G2( ),
S2( )=n−1´S2( ),
где G2(e) — генеральная дисперсия случайной ошибки; S2(e) — выборочная дисперсия случайной ошибки;
2()— выборочная оценка дисперсии случайной ошибки. Тогда:
E S2( ))=E n−1´S2( ) = n−1E(S2( ))= =nn1´nn1´G2( )=G2( ),
что и требовалось доказать.
Такимобразом,S2(e являетсянесмещеннойоценкойдля
G2(e).
Теоретически можно предположить, что оценка любого параn метра регрессии, полученная методом наименьших квадратов, состоит из двух компонент:
1) константы, т. е. истинного значения параметра;
2) случайной ошибки Cov(x,e), вызывающей вариацию параn метра регрессии.
На практике такое разложение невозможно в связи с неизn вестностью истинных значений параметров уравнения регрессии и значений случайной ошибки, но в теории оно может оказаться полезным при изучении статистических свойств МНКnоценок: состоятельности, несмещенности и эффективности.
Докажем,чтозначениеМНКnоценкиb зависитотвеличины
случайной ошибки e
МНКnоценка параметра регрессии b рассчитывается по формуле:
Cov(x,y)1 G2(x)
Ковариация между зависимой переменной y и независимой переменной x может быть представлена как:
Cov(x,y)=Cov(x,( 0+ 1x+ ))=Cov(x, 0)+Cov(x, 1)+Cov(x, ). e
Дальнейшие преобразования полученного выражения провоn дятся исходя из свойств ковариации:
1) ковариация между переменной x и какойnлибо константой Aравнанулю: Cov(x,A)=0, где A=const;
2) ковариация переменной x с самой собой равна дисперсии этойпеременной: Cov(x,x)=G2(x).
Следовательно, на основании свойств ковариации можно заn писать, что:
Cov(x, 0)=0, так как 0=const;
Cov(x, 1x )= 1´Cov(x, x )= 1´G 2(x).
Таким образом, ковариация между зависимой и независимой переменными Cov(x, y) может быть представлена в виде выражеГ ния:
Cov(x,y)= bG2(x)+Cov(x, ).
В результате несложных преобразований МНКnоценка параn метра уравнения регрессии 1принимает вид:
bG2(x)+Cov(x, ) Cov(x, ) 1 G2(x) 1 G2(x)
(3)
Из формулы (3) следует, что МНКnоценка b действительно моn жет быть представлена как сумма константы b и случайной ошибки Cov(x, e), которая и вызывает вариацию данного параметn
ра регрессии.
Аналогичнодоказывается,чтоиоценкапараметрарегрессииb ,
полученная методом наименьших квадратов, и несмещенная оценка дисперсии случайной ошибки 2(e могут быть предстаn влены как сумма постоянной составляющей (константы) и слуn чайной компоненты, которая зависит от ошибки уравнения реn грессии e.