Линейная регрессия. Прямые линии среднеквадратической регрессии. Линейная корреляция. Нормальная корреляция.
Рассмотрим двумерную случайную величину (X, Y), где X и У—зависимые случайные величины. Представим одну из величин как функцию другой. Ограничимся приближенным представлением (точное приближение, вообще говоря, невозможно) величины Y в виде линейной функции величины X:
где α и β — параметры, подлежащие определению. Это можно сделать различными способами: наиболее употребительный из них—метод наименьших квадратов.
Функцию g(X)=αX+β называют «наилучшим приближением» Y в смысле метода наименьших квадратов, если математическое ожидание М [Y—g(X)]2 принимает наименьшее возможное значение; функцию g(x) называют среднеквадратической регрессией Y на X.
Теорема. Линейная средняя квадратическая регрессия Y на X имеет вид
где mx=M(X), my=M(Y), σx=√D(X), σy=√D(Y), r=µxy/(σxσy)—коэффициент корреляции величин X и Y.
Коэффициент β=rσy/σx называют коэффициентом регрессии Y на X, а прямую
называют прямой среднеквадратической регрессии Y на X. Подставив найденные значения α и β в соотношение (*), получим минимальное значение функции F (α, β), равное σy2(1—r2). Величину σy2(1—r2) называют остаточной дисперсией случайной величины Y относительно случайной величины X; она характеризует величину ошибки, которую допускают при замене У линейной функцией g(X)=α + βX. При r = ±1 остаточная дисперсия равна нулю; другими словами, при этих крайних значениях коэффициента корреляции не возникает ошибки при представлении Y в виде линейной функции от X. Итак, если коэффициент корреляции г = ± 1, то Y и X связаны линейной функциональной зависимостью. Аналогично можно получить прямую среднеквадратической регрессии X на Y:
(rσx/σy — коэффициент регрессии X на Y) и остаточную дисперсию σx2(1—r2) величины X относительно Y. Если r = ± 1, то обе прямые регрессии, как видно из уравнений, совпадают. Из уравнений прямых среднеквадратической регрессии следует, что обе прямые регрессии проходят через точку (mx; my), которую называют центром совместного распределения величин X и Y.
Рассмотрим двумерную случайную величину (X, Y). Если обе функции регрессии У на X и X на У линейны, то говорят, что X и Y связаны линейной корреляционной зависимостью. Очевидно, что графики линейных функций регрессии — прямые линии, причем можно доказать, что они совпадают с прямыми среднеквадратической регрессии. Имеет место следующая важная теорема. Теорема. Если двумерная случайная величина (X, Y) распределена нормально, то X и Y связаны линейной корреляционной зависимостью. Доказательство. Двумерная плотность вероятности
,
где u = (х—а1)/σx, v = (y—a2)/σy. (**)
Плотность вероятности составляющей X
Найдем функцию регрессии М (Y | х), для чего сначала найдем условный закон распределения величины Y при Х=х
Подставив (*) и (***) в правую часть этой формулы и выполнив выкладки, имеем
Заменив u и v по формулам (**), окончательно получим
Полученное условное распределение нормально с математическим ожиданием (функцией регрессии У на X)
M(Y|x)=a2+(x-a1)rσy/σx
и дисперсией σy2(1—r2). Аналогично можно получить функцию регрессии X на Y:
M(X|y)=a1+(y—a2)rσx/σy
Так как обе функции регрессии линейны, то корреляция между величинами X и Y линейная, что и требовалось доказать. Принимая во внимание вероятностный смысл параметров двумерного нормального распределения, заключаем, что уравнения прямых регрессии
y—a2= (x—a1)rσy/σx, x—a1= (y—a2)rσx/σy
совпадают с уравнениями прямых среднеквадратической регрессии
- Предмет теории вероятностей. Основные понятия теории вероятностей. Статистическое и классическое определение вероятности
- Аксиомы тв
- Размещения, перестановки и сочетания
- Правила суммы и произведения
- Условная вероятность
- Формула полной вероятности. Формула Байеса
- Дискретные случайные величины. Числовые характеристики дискретной случайной величины и их свойства
- Функция распределения и её свойства
- Непрерывные случайные величины. Плотность вероятности и её свойства. Числовые характеристики непрерывной случайной величины
- Распределения дискретной случайной величины
- Распределения непрерывной случайной величины
- Закон больших чисел
- Понятие о теореме Ляпунова. Центральная предельная теорема
- Многомерные случайные величины. Определение системы случайных величин. Закон распределения вероятностей дискретной двумерной случайной величины
- Функция распределения двумерной случайной величины и её свойства
- Двумерная плотность вероятности и её свойства. Нахождение функции распределения системы по известной плотности распределения
- Зависимые и независимые случайные величины. Корреляционый момент. Коэффициент корреляции
- Коррелированность и зависимость случайных величин. Нормальный закон распределения на плоскости
- Линейная регрессия. Прямые линии среднеквадратической регрессии. Линейная корреляция. Нормальная корреляция.
- Основные понятия математической статистики. Числовые характеристика вариативного ряда
- Основные понятия математической статистики. Числовые характеристика вариативного ряда