logo
Konspekt_lektsy

31. Линейная регрессия. Прямые линии среднеквадратической регрессии

Рассмотрим систему двух зависимых случайных величин Х и Y. Положим, что , где , где а и b – параметры, подлежащие определению.

Назовем функцию наилучшим приближением к Y в смысле метода наименьших квадратов, если принимает наименьшее возможное значение, при этом - среднеквадратическая регрессия Y на Х.

Справедливо следующее утверждение.

Линейная регрессия Y на Х имеет вид , где mx, my – математические ожидания, σx, σy - средние квадратические отклонения составляющих Х и Y соответственно, rxy – коэффициент корреляции.

Прямая называется прямой среднеквадратической регрессии Y на Х. Угловой коэффициент а функции , равный , называется коэффициентом регрессии Y на Х.

Решив задачу оптимизации величины , можно заключить, что наименьшее ее значение, равное называется остаточной дисперсией случайной величины Y относительно случайной величины Х. Остаточная дисперсия характеризует величину ошибки, которую допускают при замене Y линейной функцией . При остаточная дисперсия равна нулю, т.е. при крайних значениях коэффициента корреляции не возникает ошибки при представлении Y в виде линейной функции от Х, т.е. другими словами при Y является линейной функцией от Х. При этом, если r = 1, то между Y и Х возрастающая зависимость, а при r = -1 эта зависимость является убывающей.

При r = 0 , т.е. Y от Х не зависит.

Аналогично, прямая среднеквадратической регрессии Х на У имеет вид и остаточную дисперсию величины Х относительно величины Y.

Проанализировав уравнения линий среднеквадратической регрессии Y на Х и Х на Y, отметим, что обе прямые проходят через одну и ту же точку (mx, my), которая называется центром совместного распределения Х и Y.

При прямые регрессии совпадают. В самом деле, при r = 1 имеем два равносильных уравнения:

;

.

При r = -1 имеем также два равносильных уравнения:

;

.