Порушення основних припущень лінійного регресійного аналізу
1.11 Аналіз залишків
Електронні обчислювальні машини дають нам можливість обчислення відхилень кожного серед значень , що спостерігались, від апроксимуючої регресії . Ці різниці називаються залишками і позначаються символами
,
Критерій Дарбіна-Уотсона.
Нехай нам треба підібрати постульовану лінійну модель
(1.11.1)
методом найменших квадратів за спостереженнями . Зазвичайми повинні припускати, що похибки - незалежні випадкові величини з розподілом , тобто всі серіальні кореляції . За допомогою критерію Дарбіна-Уотсона можна перевірити гіпотезу про те, що всі проти альтернативної гіпотези : залишки повязані корельовано лінійною залежністю
,
де .
Для перевірки гіпотези проти альтернативи будуємо модель за рівнянням (1.15.1) і знаходимо набір залишків . Тепер можна побудувати статистику
(1.11.2)
і визначити на її основі, чи можна відхиляти гіпотезу .
Критичні точки статистики Дарбіна-Уотсона табульовані.
Знаходимо верхню і нижню границі (вони залежать від числа в моделі і кількості спостережень ).
Якщо , то залишки додатньо автокорельовані.
Якщо , то залишки некорельовані.
Якщо , то залишки відємно корельовані.
Якщо або , то необхідно збільшити кількість спостережень.
1.12 Лінійна множинна регресія з двома незалежними змінними
Нехай - результати спостережень, які описуються моделлю:
(1.12.1)
Основні припущення мають вигляд:
Значення змінних відомі й ці змінні незалежні. Необхідно знайти оцінки невідомих параметрів .
Використаємо МНК-метод:
Отримаємо систему нормальних рівнянь для моделі (1.12.1). Ця система включає систему нормальних рівнянь простої лінійної регресії.
(1.12.2)
знаходяться з першого та другого рівнянь останньої системи.
Отримали рівняння регресії:
Матричний спосіб знаходження .
; ; ; ;
- транспонована матриця.
Систему (1.12.2) перепишемо у вигляді:
Або в матричному виді:
Домножимо праву та ліву частини на .
Звідси
.
Або, що те ж саме,
.
У множинній лінійній регресії на значущість треба перевіряти всю регресію, а також окремі коефіцієнти регресії. В першому випадку використовується загальний -критерій, а у другому - частинний -критерій.
Загальний -критерій.
Для перевірки гіпотези використовується -критерій, в якому
Загальна сума квадратів
,
де
Сума квадратів залишків
Сума квадратів, обумовлена регресією
Джерело варіації |
SS |
df |
MS |
F |
|
Регресія |
2 |
||||
Залишки |
|||||
Загальна |
-критерій перевірки значущості.
Гіпотеза відхиляється, якщо
, (1.12.3)
і в цьому випадку кажуть, що регресія значуща; і не відхиляється в супротивному разі (регресія незначуща).
Частинний -критерій.
Розглянемо 3 моделі:
1. .
- МНК-оцінки параметрів .
; .
2. .
- МНК-оцінки параметрів , які не збігаються з оцінками моделі 1.
; .
3. .
- МНК-оцінки параметрів , які не збігаються з оцінками моделей 1, 2.
; .
Означення 1. Величину називають додатковою сумою квадратів, обумовленою включенням в модель 2 члена
; .
Означення 2. Величину називають додатковою сумою квадратів, обумовленою включенням в модель 3 члена
; .
Оскільки
,,
де - число ступенів вільності, що відповідають середній сумі квадратів :
,
ми можемо записати 2 частинні -критерії.
I. Гіпотеза (при умові, що включено в модель) відхиляється, якщо:
,
і не відхиляється в супротивному разі.
Якщо гіпотеза відхиляється, то коефіцієнт є значущим, і його необхідно включити в модель.
Якщо гіпотеза не відхиляється, то включення коефіцієнта в модель не підвищує значущості регресії, і рівняння можна залишити у вигляді
.
II. Гіпотеза (при умові, що включено в модель) відхиляється, якщо:
,
і не відхиляється в супротивному разі.
Якщо гіпотеза відхиляється, то коефіцієнт є значущим, і його необхідно включити в модель.
Якщо гіпотеза не відхиляється, то включення коефіцієнта в модель не підвищує значущості регресії, і рівняння можна залишити у вигляді
.