logo
теория вероятн

Линейная регрессия. Метод наименьших квадратов

Начальным пунктом эконометрического анализа зависимостей обычно является оценка линейной зависимости переменных. Если имеется некоторое множество точек наблюдений, через него всегда можно попытаться провести такую прямую линию, которая является наилучшей в определенном смысле среди всех прямых линий, то есть «ближайшей» к точкам наблюдений по их совокупности. Для этого нужно вначале определить понятие близости прямой к некоторому множеству точек на плоскости. Меры такой близости могут быть различными. Однако любая разумная мера должна быть, очевидно, связана с расстояниями от точек наблюдений до рассматриваемой прямой линии.

Рассмотрим двумерную случайную величину . Предположим, что некоторая величина приближенно представляет величину и может быть записана как функция от в виде линейной зависимости , где и – неизвестные параметры.

Требуется так подобрать параметры и , чтобы функция была наилучшим приближением к случайным значениям .

В качестве меры отклонения величины от значений можно взять математическое ожидание квадрата разности ( – ), т.е. .

Минимизация этого выражения позволяет получить соотношения для определения параметров и . Полученную таким образом функцию называют наилучшим приближением по методу наименьших квадратов, а функцию называют линейной средней квадратической регрессией на .

Теорема. Линейная средняя квадратическая регрессия на имеет вид:

где , , , , .

Доказательство: Пусть . Рассмотрим функцию .

Поскольку:

, ,

тогда, раскрывая квадрат разности, получим:

Так как , то , а из равенства следует .

Кроме того, .

Откуда следует, что .

Подставив полученные выражения, получим:

.

На основании необходимого условия экстремума функции двух переменных ее частные производные по соответствующим переменным должны быть равны нулю:

или ;

, или .

Таким образом, получаем систему двух уравнений:

Из этой системы находим параметры и . Для этого умножим второе уравнение системы на и сложим с первым. Получим , . Подставив полученное выражение для во второе уравнение системы, найдем .

После подстановки и в выражение функции , получим:

.

Условное математическое ожидание этого выражения при запишется в виде , что и требовалось доказать.

Метод оценивания параметров линейной регрессии, минимизирующий сумму квадратов отклонений наблюдений зависимой переменной от искомой линейной функции, называется методом наименьших квадратов.