Порушення основних припущень лінійного регресійного аналізу
1.9 Повторні спостереження. Неадекватність і “чиста” помилка
Побудована лінія регресії - це розрахункова лінія, яка базується на деякій моделі або припущеннях. Але припущення потрібно розглядати як попередні. При деяких обставинах (умовах) можна перевірити, чи коректна (адекватна) побудована модель.
Розглянемо випадок, коли в даних містяться повторні спостереження. Введемо додаткові позначення для множини спостережень при одному й тому ж значенні .
Нехай
- спостережень при ,
- спостережень при ,
. . . . . . . . .
- спостережень при ,
при цьому .
Якщо спостереження повторюються (два рази або більше) при однакових значеннях , то ми можемо використати ці повторення для знаходження оцінки для дисперсії . Про таку оцінку говорять, що вона представляє “чисту помилку”, оскільки, якщо однакові, наприклад, для двох спостережень, то тільки випадкові варіації можуть впливати на результати і створювати розсіювання між ними. Такі відмінності, як правило, забезпечують одержання надійної оцінки для . Тому при плануванні експериментів має сенс ставити експерименти з повтореннями.
Оцінка величини , повязана з “чистою помилкою”, знаходиться так.
Сума квадратів, повязана з “чистою помилкою” при дорівнює
, де
Число ступенів вільності цієї суми .
Сума квадратів, повязана з “чистою помилкою” при дорівнює
, де
Число ступенів вільності цієї суми і т. д.
Загальна сума квадратів, повязана з “чистою помилкою”дорівнює
з загальним числом ступенів вільності
Звідси середній квадрат для “чистої помилки” дорівнює
(1.9.1)
і є оцінкою для .
Покажемо, що сума квадратів, повязана з “чистою помилкою”, є частиною суми квадратів залишків (суми квадратів відносно регресії).
Залишок для -того спостереження при можна записати у вигляді:
Піднесемо праву та ліву частини рівності до квадрату.
Візьмемо суму по кожному з індексів та .
(1.9.2)
при цьому .
Суму (1.9.2) можна записати так
Сума Сума квадратів Сума
квадратів = “чистих + квадратів (1.9.3.)
залишків помилок” неадекватності
Число ступенів вільності:
Отже, суму квадратів “чистих помилок” можна ввести в таблицю дисперсійного аналізу.
Таблиця 1.9.1. Таблиця дисперсійного аналізу
Джерело варіації |
Число ступенів вільності |
Сума квадратів |
Середній квадрат |
Статистика |
|
Відносно середнього |
|||||
Обумовлена регресією |
|||||
Відносно регресії |
|||||
Неадекватність |
|||||
„Чиста помилка” |
Критерій для перевірки адекватності моделі регресії можна сформулювати так.
Якщо
(1.9.4)
то відношення є значущим (лінійна модель неадекватна), при цьому, чим обумовлена неадекватність можна вивчити, дослідивши залишки; в супротивному випадку:
(1.9.5)
відношення є незначущим (лінійна модель адекватна), при цьому як , так і можна використовувати як оцінки для .
Обєднана оцінка для може бути знайдена з суми квадратів “чистої помилки” і суми квадратів “неадекватністі” шляхом їх обєднання у суму квадратів залишків і поділу її на число ступенів вільності .
Якщо виявлено неадекватність моделі, то необхідно будувати іншу модель (нелінійну).