Вероятностное обоснование МНК как наилучшей оценки
Рассмотрим следующую задачу. Пусть из теоретических соображений мы знаем, что
Пусть мы провели измерений и получили выборку пар . Наша задача - найти коэффициенты .
Если изобразить результаты измерений на графике, то они не лягут в точности на прямую. Будет некоторый разброс. Поэтому можно сказать, что наша задача состоит и в том, чтобы провести прямую наилучшим образом. Начнем с простейшего подхода.
В дальнейших рассуждениях пренебрежем ошибкой в . Будем считать, что вся ошибка заключена в . Представим результаты измерений следующим образом: , где есть случайная величина со средним значением ноль. Будем подбирать искомые коэффициенты из соображений, чтобы случайная добавка была наименьшей. Введем с этой целью невязку и найдем минимум невязки:
Эти уравнения называются в теории МНК нормальными уравнениями. Они и служат для определения искомых коэффициентов.
Перепишем их следующим образом:
Решение этих уравнений имеет вид:
Полученная линия называется линией аппроксимации по методу наименьших квадратов, еще говорят линией регрессии у по х.
В стандартных учебниках обычно на этом и заканчивается изложение метода НК. Однако до завершения еще далеко. Во-первых, следует оценить ошибки коэффициентов, найти для них доверительные интервалы. Во-вторых, следует оценить качество регрессии. Все это достаточно тонкие и сложные вопросы. Но их надо решать.
Перейдем к оценке ошибок коэффициентов. Для этого сделаем некоторые предварительные замечания и преобразуем найденные выражения.
Введем средние значения для : , аналогично : .
Вычислим:
аналогично для
Тогда
Перепишем теперь коэффициенты. Для
Последняя сумма равна нулю, и окончательно имеем:
Это соотношение следует рассматривать таким образом:
Мы приняли, что основная ошибка заключена в у, а х не флуктуируют. Последнюю формулу мы можем рассматривать как линейную комбинацию у, в которой х выступают как фиксированные неслучайные числа. Если предположить, что yi и yj между собой независимы и дисперсия , то мы уже получали, что дисперсия b
Как оценить ? Очевидно,
На самом деле - это смещенная оценка, т.к. вместо истинных значений и подставляются лишь их оценки. Более детальные расчеты показывают, что вместо надо подставить : 2 здесь потому, что в задаче 2 искомых параметра и . Тогда правильная оценка для дисперсии будет:
.
Если бы в задаче было бы р искомых параметров, то надо было бы записать:
.
Этим и заканчивается оценка ошибки коэффициента .
По аналогии можно показать, что дисперсия коэффициента равна:
Чтобы убедиться в том, что значения коэффициентов, полученные МНК, являются наилучшими, применим принцип максимального правдоподобия. Опять же пренебрежем погрешностью в и будем считать, что вся погрешность заключена в . Примем, что i -й результат измерений - это есть какое-то конкретное случайное число, случайная реализация из бесконечного набора случайных чисел. Этот набор случайных чисел подчиняется нормальному закону распределения и характеризуется разбросом, или стандартным отклонением . Будем считать, что стандартное отклонение во всех измерениях одинаковое, т.е. . И последнее: считаем, что результаты измерений между собой независимые. Тогда вероятность получить в результате измерений набор чисел равна:
Наилучшую оценку для и даст . И мы приходим к нормальным уравнениям для и .
После того, как найдены коэффициенты и , дифференцируя вероятность по , находим выражение для нее, совпадающее с тем, что мы использовали выше, где уже учтено количество степеней свободы.