Регресійний аналіз інтервальних даних

дипломная работа

3.1 Метод найменших квадратів для інтервальних даних

Нехай математична модель задана:

(3.1.1)

де х = (х1, х2,..., хm) - вектор впливаючих змінних, що піддаються виміру; - вектор оцінюваних параметрів моделі; у - відгук моделі (скаляр); Q(x,)- скалярна функція векторів х і ; і е - випадкова похибка.

Нехай проведено n досвідів, причому в кожному досвіді обмірювані (один раз) значення відгуку (у) і вектора факторів (х). Результати вимірів можуть бути представлені в наступному виді:

де Х - матриця значень обмірюваного вектора (х) в n досвідах; Y - вектор значень обмірюваного відгуку в n досвідах; Е - вектор випадкових помилок. Тоді виконується матричне співвідношення:

, (3.1.2)

де , причому - n-мірні вектора, які становлять матрицю

Введемо міру близькості між векторами і . В МНК в якості береться квадратична форма зважених квадратів невязань

,

тобто

де - матриця ваг, що не залежить від . Тоді як оцінка можна вибрати таке , при якому міра близькості d(Y,Q) приймає мінімальне значення, тобто

.

У загальному випадку рішення цього екстремального завдання може бути не єдиним. Тому надалі будемо мати на увазі одне із цих рішень. Воно може бути виражене у вигляді:

причому неперервні і дифференційовні по (Х,Y) Z, де Z - область визначення функції f(X,Y). Ці властивості функції f(X,Y) дають можливість використати підходи статистики інтервальних даних.

Перевага методу найменших квадратів полягає в порівняльній простоті й універсальності обчислювальних процедур. Однак не завжди оцінка МНК є самостійною, що обмежує його застосування на практиці.

Важливим частковим випадком є лінійний МНК, коли Q(x,) є лінійна функція від :

,

де = 1, а - вільний член лінійної комбінації. Як відомо, у цьому випадку МНК-оцінка має вигляд:

Якщо матриця невироджена, то ця оцінка є єдиною. Якщо матриця ваг W одинична, то

Нехай виконуються наступні припущення щодо розподілу похибок :

- помилки мають нульові математичні очікування М{} = 0,

- результати спостережень мають однакову дисперсію D {} = ,

- помилки спостережень некорельовані, тобто .

Тоді, як відомо, оцінки МНК є найкращими лінійними оцінками, тобто спроможними і незміщеними оцінками, які являють собою лінійні функції результатів спостережень і мають мінімальні дисперсії серед безлічі всіх лінійних незміщених оцінок. Далі саме цей найбільше практично важливий окремий випадок розглянемо більш докладно.

Запишемо істині дані в наступній формі:

де R - індекс, що вказує на те, що значення істинне. Істині і обмірювані дані повязані таким чином:

де

Припустимо, що похибки виміру відповідають граничним умовам

(3.1.3)

Нехай безліч W можливих значень входить в Z - область визначення функції f(X,Y). Розглянемо - оцінку МНК, розраховану за істинним значенням факторів і відгуку, і - оцінку МНК, знайдену за відхиленими похибкам даних.

Тоді

Введемо поняття нотни.

Означення: Величину максимально можливого (по абсолютній величині) відхилення, викликаного похибками спостережень , відомого статистику значення f(y) від істинного значення f(x), тобто

Nf(x) = sup | f(y) - f(x) |,

де супремум береться по безлічі можливих значень вектора похибки , будемо називати нотною.

Якщо функція f має частинні похідні другого порядку, а обмеження на похибку мають вигляд

(3.1.4)

причому мало, то збільшення функції f з точністю до нескінченно малих більш високого порядку описується головним лінійним членом, тобто

Щоб одержати асимптотичний (при ) вираз для нотни, досить знайти максимум і мінімум лінійної функції (головного лінійного члена) на кубі, заданому нерівностями (4.1.4). Легко бачити, що максимум досягається, якщо покласти

а мінімум, що відрізняється від максимуму тільки знаком, досягається при . Отже, нотна з точністю до нескінченно малих більше високого

порядку має вигляд

(3.1.5)

Цей вираз назвемо асимптотичною нотною.

Покладемо:

Будемо називати n(1) нижньою нотною, а n(2) верхньою нотною.

Припустимо, що при безмежному зростанні числа вимірів n, тобто при

вектора n(1), n(2) прямують до постійних значень відповідно. Тоді будемо називати нижньою асимптотичною нотною, а - верхньою асимптотичною нотною.

Розглянемо довірчу множину для вектора параметрів , тобто замкнута звязна множина точок в r-мірному евклідовому просторі така, що де б - довірча ймовірність, що відповідає Bб (б ? 1). Інакше кажучи, є область розсіювання випадкового вектора з довірчою ймовірністю б і числом досвідів n.

З визначення верхньої й нижньої нотни треба, щоб завжди

Відповідно до визначення нижньої асимптотичної нотни й верхньої асимптотичної нотни можна вважати, що при досить великій кількості спостережень n. Цей багатомірний інтервал описує r-мірний гіперпаралелепіпед P.

Розібємо P на L гіперпаралелепіпедів. Нехай - внутрішня точка k-го гіперпаралелепіпеда. З огляду на властивості довірчої множини і спрямовуючи L до нескінченності, можна стверджувати, що

де

Таким чином, безліч C характеризує невизначеність при оцінюванні вектора . Його можна назвати довірчою множиною в статистиці інтервальних даних.

Введемо деяку міру М(X), що характеризує "величину" множини . По визначенню міри вона задовольняє умові: якщо

і то

Прикладом такої міри є площа для r = 2 і обєма для r = 3. Тоді:

М(C) = М(P) + М(F), (3.1.6)

де F = C P. Тут М(F) характеризує міру статистичної невизначеності, у більшості випадків вона спадає при збільшенні числа досвідів n. У той же час М(P) характеризує міру інтервальної невизначеності, і, як правило, М(P) прагне до деякої постійної величини при збільшенні числа досвідів n. Нехай тепер потрібно знайти те число досвідів, при якому статистична невизначеність становить д-ю частина загальної невизначеності, тобто

М(F) = д М(C), (4.1.7)

де д < 1. Тоді, підставивши співвідношення (4.1.7) у рівність (4.1. 6) і вирішивши рівняння відносно n, одержимо шукане число досвідів. В асимптотичній математичній статистиці інтервальних даних воно називається "раціональним обсягом вибірки".

Делись добром ;)