logo search
Метод наименьших квадратов

Вероятностное обоснование МНК как наилучшей оценки

Рассмотрим следующую задачу. Пусть из теоретических соображений мы знаем, что

Пусть мы провели измерений и получили выборку пар . Наша задача - найти коэффициенты .

Если изобразить результаты измерений на графике, то они не лягут в точности на прямую. Будет некоторый разброс. Поэтому можно сказать, что наша задача состоит и в том, чтобы провести прямую наилучшим образом. Начнем с простейшего подхода.

В дальнейших рассуждениях пренебрежем ошибкой в . Будем считать, что вся ошибка заключена в . Представим результаты измерений следующим образом: , где есть случайная величина со средним значением ноль. Будем подбирать искомые коэффициенты из соображений, чтобы случайная добавка была наименьшей. Введем с этой целью невязку и найдем минимум невязки:

Эти уравнения называются в теории МНК нормальными уравнениями. Они и служат для определения искомых коэффициентов.

Перепишем их следующим образом:

Решение этих уравнений имеет вид:

Полученная линия называется линией аппроксимации по методу наименьших квадратов, еще говорят линией регрессии у по х.

В стандартных учебниках обычно на этом и заканчивается изложение метода НК. Однако до завершения еще далеко. Во-первых, следует оценить ошибки коэффициентов, найти для них доверительные интервалы. Во-вторых, следует оценить качество регрессии. Все это достаточно тонкие и сложные вопросы. Но их надо решать.

Перейдем к оценке ошибок коэффициентов. Для этого сделаем некоторые предварительные замечания и преобразуем найденные выражения.

Введем средние значения для : , аналогично : .

Вычислим:

аналогично для

Тогда

Перепишем теперь коэффициенты. Для

Последняя сумма равна нулю, и окончательно имеем:

Это соотношение следует рассматривать таким образом:

Мы приняли, что основная ошибка заключена в у, а х не флуктуируют. Последнюю формулу мы можем рассматривать как линейную комбинацию у, в которой х выступают как фиксированные неслучайные числа. Если предположить, что yi и yj между собой независимы и дисперсия , то мы уже получали, что дисперсия b

Как оценить ? Очевидно,

На самом деле - это смещенная оценка, т.к. вместо истинных значений и подставляются лишь их оценки. Более детальные расчеты показывают, что вместо надо подставить : 2 здесь потому, что в задаче 2 искомых параметра и . Тогда правильная оценка для дисперсии будет:

.

Если бы в задаче было бы р искомых параметров, то надо было бы записать:

.

Этим и заканчивается оценка ошибки коэффициента .

По аналогии можно показать, что дисперсия коэффициента равна:

Чтобы убедиться в том, что значения коэффициентов, полученные МНК, являются наилучшими, применим принцип максимального правдоподобия. Опять же пренебрежем погрешностью в и будем считать, что вся погрешность заключена в . Примем, что i -й результат измерений - это есть какое-то конкретное случайное число, случайная реализация из бесконечного набора случайных чисел. Этот набор случайных чисел подчиняется нормальному закону распределения и характеризуется разбросом, или стандартным отклонением . Будем считать, что стандартное отклонение во всех измерениях одинаковое, т.е. . И последнее: считаем, что результаты измерений между собой независимые. Тогда вероятность получить в результате измерений набор чисел равна:

Наилучшую оценку для и даст . И мы приходим к нормальным уравнениям для и .

После того, как найдены коэффициенты и , дифференцируя вероятность по , находим выражение для нее, совпадающее с тем, что мы использовали выше, где уже учтено количество степеней свободы.