Порушення основних припущень лінійного регресійного аналізу

магистерская работа

1.9 Повторні спостереження. Неадекватність і “чиста” помилка

Побудована лінія регресії - це розрахункова лінія, яка базується на деякій моделі або припущеннях. Але припущення потрібно розглядати як попередні. При деяких обставинах (умовах) можна перевірити, чи коректна (адекватна) побудована модель.

Розглянемо випадок, коли в даних містяться повторні спостереження. Введемо додаткові позначення для множини спостережень при одному й тому ж значенні .

Нехай

- спостережень при ,

- спостережень при ,

. . . . . . . . .

- спостережень при ,

при цьому .

Якщо спостереження повторюються (два рази або більше) при однакових значеннях , то ми можемо використати ці повторення для знаходження оцінки для дисперсії . Про таку оцінку говорять, що вона представляє “чисту помилку”, оскільки, якщо однакові, наприклад, для двох спостережень, то тільки випадкові варіації можуть впливати на результати і створювати розсіювання між ними. Такі відмінності, як правило, забезпечують одержання надійної оцінки для . Тому при плануванні експериментів має сенс ставити експерименти з повтореннями.

Оцінка величини , повязана з “чистою помилкою”, знаходиться так.

Сума квадратів, повязана з “чистою помилкою” при дорівнює

, де

Число ступенів вільності цієї суми .

Сума квадратів, повязана з “чистою помилкою” при дорівнює

, де

Число ступенів вільності цієї суми і т. д.

Загальна сума квадратів, повязана з “чистою помилкою”дорівнює

з загальним числом ступенів вільності

Звідси середній квадрат для “чистої помилки” дорівнює

(1.9.1)

і є оцінкою для .

Покажемо, що сума квадратів, повязана з “чистою помилкою”, є частиною суми квадратів залишків (суми квадратів відносно регресії).

Залишок для -того спостереження при можна записати у вигляді:

Піднесемо праву та ліву частини рівності до квадрату.

Візьмемо суму по кожному з індексів та .

(1.9.2)

при цьому .

Суму (1.9.2) можна записати так

Сума Сума квадратів Сума

квадратів = “чистих + квадратів (1.9.3.)

залишків помилок” неадекватності

Число ступенів вільності:

Отже, суму квадратів “чистих помилок” можна ввести в таблицю дисперсійного аналізу.

Таблиця 1.9.1. Таблиця дисперсійного аналізу

Джерело варіації

Число

ступенів

вільності

Сума квадратів

Середній квадрат

Статистика

Відносно середнього

Обумовлена регресією

Відносно регресії

Неадекватність

„Чиста помилка”

Критерій для перевірки адекватності моделі регресії можна сформулювати так.

Якщо

(1.9.4)

то відношення є значущим (лінійна модель неадекватна), при цьому, чим обумовлена неадекватність можна вивчити, дослідивши залишки; в супротивному випадку:

(1.9.5)

відношення є незначущим (лінійна модель адекватна), при цьому як , так і можна використовувати як оцінки для .

Обєднана оцінка для може бути знайдена з суми квадратів “чистої помилки” і суми квадратів “неадекватністі” шляхом їх обєднання у суму квадратів залишків і поділу її на число ступенів вільності .

Якщо виявлено неадекватність моделі, то необхідно будувати іншу модель (нелінійну).

Делись добром ;)