logo
ответы к экзамену ТВиМС

Линейная регрессия. Прямые линии среднеквадратической регрессии. Линейная корреляция. Нормальная корреляция.

Рассмотрим двумерную случайную величину (X, Y), где X и У—зависимые случайные величины. Представим одну из величин как функцию другой. Ограничимся приближенным представлением (точное приближение, вообще говоря, невозможно) величины Y в виде линейной функции величины X:

где α и β — параметры, подлежащие определению. Это можно сделать различными способами: наиболее употребительный из них—метод наименьших квадратов.

Функцию g(X)=αX+β называют «наилучшим приближением» Y в смысле метода наименьших квадратов, если математическое ожидание М [Y—g(X)]2 принимает наименьшее возможное значение; функцию g(x) называют среднеквадратической регрессией Y на X.

Теорема. Линейная средняя квадратическая регрессия Y на X имеет вид

где mx=M(X), my=M(Y), σx=√D(X),  σy=√D(Y),  r=µxy/(σxσy)—коэффициент корреляции величин X и Y.

Коэффициент β=rσyx называют коэффициентом регрессии Y на X, а прямую

называют прямой среднеквадратической регрессии Y на X. Подставив найденные значения α и β в соотношение (*), получим минимальное значение функции F (α, β), равное σy2(1—r2). Величину σy2(1—r2) называют остаточной дисперсией случайной величины Y относительно случайной величины X; она характеризует величину ошибки, которую допускают при замене У линейной функцией g(X)=α + βX. При r = ±1 остаточная дисперсия равна нулю; другими словами, при этих крайних значениях коэффициента корреляции не возникает ошибки при представлении Y в виде линейной функции от X.  Итак, если коэффициент корреляции г = ± 1, то Y и X связаны линейной функциональной зависимостью.  Аналогично можно получить прямую среднеквадратической регрессии X на Y:

(rσxy — коэффициент регрессии X на Y) и остаточную дисперсию σx2(1—r2) величины X относительно Y.  Если r = ± 1, то обе прямые регрессии, как видно из уравнений, совпадают.  Из уравнений прямых среднеквадратической регрессии следует, что обе прямые регрессии проходят через точку (mx; my), которую называют центром совместного распределения величин X и Y.

Рассмотрим двумерную случайную величину (X, Y). Если обе функции регрессии У на X и X на У линейны, то говорят, что X и Y связаны линейной корреляционной зависимостью. Очевидно, что графики линейных функций регрессии — прямые линии, причем можно доказать, что они совпадают с прямыми среднеквадратической регрессии. Имеет место следующая важная теорема.  Теорема. Если двумерная случайная величина (X, Y) распределена нормально, то X и Y связаны линейной корреляционной зависимостью.  Доказательство. Двумерная плотность вероятности

,

где u = (х—а1)/σx, v = (y—a2)/σy. (**)

Плотность вероятности составляющей X

Найдем функцию регрессии М (Y | х), для чего сначала найдем условный закон распределения величины Y при Х=х

Подставив (*) и (***) в правую часть этой формулы и выполнив выкладки, имеем

Заменив u и v по формулам (**), окончательно получим

Полученное условное распределение нормально с математическим ожиданием (функцией регрессии У на X)

M(Y|x)=a2+(x-a1)rσyx

и дисперсией σy2(1—r2).  Аналогично можно получить функцию регрессии X на Y:

M(X|y)=a1+(y—a2)rσxy

Так как обе функции регрессии линейны, то корреляция между величинами X и Y линейная, что и требовалось доказать.  Принимая во внимание вероятностный смысл параметров двумерного нормального распределения, заключаем, что уравнения прямых регрессии

y—a2= (x—a1)rσyx, x—a1= (y—a2)rσxy

совпадают с уравнениями прямых среднеквадратической регрессии