11_Конспекты лекций

2. Линейная корреляция. Уравнения прямых регрессии для парной корреляции

Данные о статистической зависимости между двумя переменными величинами удобно задавать в виде корреляционной таблицы:

	y₁	y₂	…	y_j	…	y_m	Всего: или n_i
x₁	n₁₁	n₁₂	…	n₁_j	…	n₁_m	n₁
x₂	n₂₁	n₂₂	…	n₂_j	…	n₂_m	n₂
…	…	…	…	…	…	…	…
x_i	n_i1	n_i2	…	n_ij	…	n_im	n_i
…	…	…	…	…	…	…	…
x_l	n_l₁	n_l₂	…	n_lj	…	n_lm	n_l
Всего: или n_j	n₁	n₂	…	n_j	…	n_m	n

где: l – число интервалов по переменной X, m – число интервалов по переменной Y;

x_i и y_j – середины соответствующих интервалов;

n_ij – частоты пар (x_i ; y_j) ;

, ;

– объем выборки.

Определение 1. Корреляционная зависимость между случайными величинами Х и Y называется линейной корреляцией, если обе функции регрессии (x) и (y) являются линейными.

Этот вид корреляционной зависимости встречается довольно часто. В этом случае обе линии регрессии являются прямыми и называются прямыми регрессии.

Выведем уравнение прямой регрессии Y по X , т.е. найдем коэффициенты линейной функции (x)=aх+b.

Для этого применим метод наименьших квадратов, согласно которому неизвестные параметры a и b выбираются так, чтобы была минимальной сумма:

где групповые средние вычисляются по формулам:

Используя необходимое условие экстремума функции двух переменных, получаем систему нормальных уравнений для определения параметров линейной регрессии:

где соответствующие средние вычисляются по формулам:

, , , .

Решая систему нормальных уравнений, получаем:

, , где:

– выборочная дисперсия переменной X, – выборочная ковариация.

Коэффициент a в уравнении регрессии называется выборочным коэффициентом регрессии Y по X и обозначается _yx. Итак,

Аналогично уравнение прямой регрессии X по Y имеет вид , где – выборочный коэффициент регрессии X по Y, показывающий, на сколько единиц в среднем изменяется переменная Х при увеличении переменной Y на одну единицу. Здесь есть выборочная дисперсия переменной Y, где .

Содержание