logo
Метод наименьших квадратов

Дисперсионный анализ

Начнем с понятия о дисперсионном анализе регрессии. Разберем это понятие на примере линейной зависимости. Согласно МНК можем представить:

, где .

Здесь второе соотношение - найденное уравнение регрессии, есть случайная величина со средним, равным нулю. Усредняя, находим:

.

Введем: и . Обратить внимание на малые и большие буквы. Через эти обозначения уравнение регрессии можно записать так:

. Кроме того: .

Вычислим теперь такую сумму:

.

Покажем, что средняя сумма равна нулю.

В принятых обозначениях , поэтому действительно .

Окончательно интересующая нас сумма может быть разбита на 2 части:

Чтобы проанализировать смысл полученного разбиения, нарисуем график:

Размещено на http://www.allbest.ru/

Во-первых, заметим, что регрессионная прямая всегда проходит через средние значения.

Во-вторых, смысл первой суммы есть вариация зависимой переменной около среднего значения, которая объясняется регрессией. Вторая сумма - это та часть вариации, которая регрессией не объясняется. Отсюда видно, что качество регрессии тем лучше, чем меньше доля второй суммы по отношению к исходной. Для случая зависимости от одной переменной (ее еще называют предиктором), можно показать, что:

,

где есть коэффициент корреляции между х и у. Можно еще записать так:

.

Отсюда видно, если не будет случайных ошибок, то . Величину еще называют коэффициентом детерминации. По смыслу сказанного ясно, что он позволяет судить о качестве регрессионной модели.

С учетом степеней свободы коэффициент детерминации определяется так:

Другой взгляд на то, что показывает коэффициент детерминации. Регрессионная прямая, как уже отмечалось, проходит через средние значения. Она может проходить либо под углом к оси абсцисс, либо горизонтально. В первом случае мы имеем, что между х и у есть некоторая зависимость. Во втором - зависимость отсутствует. Коэффициент детерминации позволяет сделать выбор между этими двумя возможностями.

Какова количественная мера того, что коэффициент детерминации значим? Заметим здесь, что если в задаче один предиктор, то ответ на этот вопрос дается с помощью критерия Стьюдента. Коэффициент детерминации сохраняет свое значение и в случае многофакторного анализа, но в этом случае используется несколько другая статистика - статистика Фишера.

Типичная задача. Пусть мы имеем какое-то регрессионное уравнение, скажем,

.

Под понимаю какой-то объясняющий предиктор. Спрашивается, все ли к предикторов должны участвовать в модели, или какие-то m штук в модель не входят, т.е. соответствующие коэффициенты равны нулю? В последнем случае модель имеет вид:

.

Задача решается следующим образом. Вначале строится первая модель и находится коэффициент детерминации, обозначим его . Затем строится вторая модель без m предикторов и находится коэффициент детерминации . Затем вычисляется величина

.

Эта величина подчиняется статистике Фишера с (m,N-k-1) степенями свободы. Как и для коэффициента Стьюдента, для нее рассчитаны таблицы. Работа с ними строится так. Назначается заданный уровень значимости. По таблицам находится критическое значение F-статистики Фишера с соответствующим количеством степеней свободы. Если рассчитанное значение превосходит критическое, то нулевая гипотеза, заключающаяся в том, что рассматриваемые m переменных не входят в модель, отвергается. Собственно говоря, из структуры для F видно, что если исключены m каких-то переменных и при этом коэффициент детерминации мало изменился, то это и означает, что добавление этих переменных мало меняет остатки. Соответственно, эти переменные можно и не включать. Но если разность будет большой, то это означает, что изменение остатков существенное, существен вклад этих m предикторов, и исключать их неправомерно.

На практике не исключают сразу несколько предикторов, а анализируют по очереди.

Приведу такой пример. Пусть процесс описывается функцией , а мы, не зная этого, моделируем его функцией . В силу того, что в экспериментальных данных будут погрешности, скорее всего, все коэффициенты будут отличны от нуля. Но после построения регрессии общего вида, следует проверить достоверность коэффициентов по критерию Стьюдента, формулировав нулевую гипотезу для каждого коэффициента. Затем, выбрав недостоверный коэффициент, исключить его. Построить новую регрессию, и с помощью статистики Фишера убедиться, что исключение соответствующего коэффициента было значимо.

Собственно говоря, в этом и состоит дисперсионный анализ.