logo
Оцінювання розподілу малої вибірки

2. Сучасні методи оцінювання розподілу малої вибірки

2.1 Метод прямокутних внесків (МПВ)

Метод прямокутних внесків був запропонований Чавчанідзе В.В. та Кумсішвілі В.А. в 1959 році [4]. Цей метод спрямований на побудову оцінки щільності розподілу f*(x).

Основні припущення метода такі. Множина можливих значень випадкових величин - відрізок [a,b]. Кожна випадкова величина використовується для побудови оцінки щільності окремо, при цьому кожна випадкова величина рівномірно "розмазується" в прямокутнику

.

За додаткову апріорну інформацію передбачається знання інтервалу [а;b], в якому випадкова величина набуває значень. При цьому вважається, що щільність розподілу f(x) неперервна, не має дуже великих стрибків на заданому інтервалі й

f(x)?0 при а?x?b; (2.1.1)

f(x)?0 при x<a, x>b. (2.1.2)

Наявність подібної апріорної інформації, навіть за відсутності реалізацій вибірки , дозволяє побудувати оцінку щільності f*(x). Жодній з можливих реалізацій всередині інтервалу [а;b] не можна віддати перевагу. Саме таку особливість має рівномірний розподіл на [а;b] (див. рис 2.1.1)

(2.1.3)

Рис. 2.1.1. Графік щільності рівномірного розподілу на [а;b]

Тому до проведення стохастичного експерименту оцінка щільності має вигляд

f*(x)= f0 (x). (2.1.4)

Функцію f0(x) називатимемо апріорною щільністю розподілу.

Проводиться стохастичний експеримент, результатом якого є реалізація вибірки . Поява реалізацій дає можливість уточнити оцінку (2.1.4). Останнє здійснюється шляхом індивідуального підходу до кожної окремої реалізації вибірки , при якому їй приписується елементарна рівномірна щільність на відрізку :

(2.1.5)

Функцію називають функцією внеску реалізації , при цьому d - ширина функції внеску, .

Функція внеску задається симетрично відносно точки на інтервалі довжини d (див. рис. 2.1.2), отже, інформація про випадкову величину , одержана від реалізації "розмазується".

Рис. 2.1.2. Графік і-тої функції внеску

Тоді оцінка щільності знаходиться підсумовуванням апріорної щільності та всіх внесків реалізацій вибірки з однією й тією ж вагою :

(2.1.6)

Рис. 2.1.3. Графік оцінки щільності

При побудові оцінки щільності МПВ за формулою (2.1.6) для внесків, що виходять за одну з меж інтервалу [а; b], рекомендується відкидати частини, що виходять за ці межі. Над частиною внеску, що знаходиться всередині інтервалу [а; b], як над основою, слід рівномірно надбудовувати прямокутник, площа якого дорівнює відкинутій.

Оцінка функції розподілу F*(x) для МПВ знайдена інтегруванням щільності f*(x)

(2.1.7)

2.2 Метод зменшення невизначеності (МЗН)

Метод зменшення невизначеності був запропонований Єременко В.І. та Свердликом А.Н. в 1963 році [5].

Цей метод дозволяє побудувати оцінку функції розподілу при апріорно відомому інтервалі [a,b], на якому вибірка набуває значень. На відміну від МПВ, в якому інформація від реалізації "розмазується" рівномірно на відрізку , в МЗН пропонується "розподілити рівномірно стрибок імовірностей в точці та розповсюдити вплив вказаного перетворення на весь відрізок ".

Розглянемо рисунок 2.2.1, на якому за трьома реалізаціями побудована оцінка F*(x). Для її знаходження необхідно на інтервалі [a,b] нанести на графік похилі лінії, число яких дорівнює (n+1)=4, під кутом

(2.2.1)

до вісі абсцис на однаковій відстані одна від одної, яка дорівнює величині . Далі будується ламана лінія від точки (a;0) до точки (b;1) через середини відрізків, перпендикулярних вісі абсцис, що відновлені в точках та замкнених між похилими лініями. Дана ламана лінія і є шуканою оцінкою F*(x).

Рис. 2.2.1. Графік оцінки функції розподілу

В загальному вигляді вираз для оцінки F*(x) на відрізку такий:

(2.2.2)

(2.2.3)

де - число випадків збігу реалізацій .

МЗН є частинним випадком МПВ. Це легко перевірити. Для цього необхідно від оцінки функції розподілу F*(x) перейти до оцінки щільності f*(x). На рис. 2.2.2. зображена перша похідна від оцінки F*(x) за аргументом х, яка є нічим іншим, як оцінкою щільності f*(x). З рисунка 2.2.2, на якому цифри всередині прямокутників означають їх площі, видно, що f*(x) складається з:

1) апріорної рівномірної щільності , яка займає 25% площі оцінки f*(x), та 2) трьох функцій внеску несиметричної форми, які займають по 25% площі оцінки f*(x).

Рис. 2.2.2. Графік оцінки щільності f*(x) розподілу

Аналітично функцію внеску реалізації можна записати так:

(2.2.4)

де при реалізація , а при реалізація .

Оцінка f*(x) знаходиться підсумовуванням всіх вказаних компонент з вагами . Отже, вираз для МПВ визначає оцінку f*(x) для МЗН. Відміна лише в тому, що прямокутний внесок перетворений у внесок східчастої форми, що складається з двох прямокутників з рівною площею.

Така заміна дозволяє досить легко будувати оцінку функції розподілу.

2.3 Метод апріорно-емпіричних функцій (АЕФ)

Метод апріорно-емпіричних функцій був запропонований Демковим І.П. та Потепун В.Е. в 1970 році [6].

Метод апріорно-емпіричних функцій дозволяє відразу отримати оцінку функції розподілу .

Оцінка, побудована методом апріорно-емпіричних функцій, визначається так:

, (2.3.1)

де - апріорний розподіл, побудований за апріорними даними;

- емпіричний розподіл, побудований за вибіркою ;

- коефіцієнт достовірності інформації про апріорний розподіл.

З формули (2.3.1) випливає, що метод апріорно-емпіричних функцій також базується на використанні апріорної інформації, яка представляє собою інтервал [a,b], але при цьому їй приписується деяка вага та передбачається, що

(2.3.2)

(2.3.3)

де - інтервал дискретності, який визначається точністю спостереження (вимірювання) випадкової величини; - щільність оцінюваної функції розподілу, яка є обмеженою функцією на та має скінчене число точок розриву. Крім того, при побудові за допомогою метода апріорно- емпіричних функцій використовується індивідуальний підхід до кожної реалізації вибірки: інформація яка вкладена в реалізації , розподіляється рівномірно на відрізку дискретності .

Метод АЕФ передбачає наступний порядок дій для побудови оцінки функції розподілу.

1. Визначається відрізок [a,b] та відрізок дискретності . За границі a та b, у випадку, якщо вони невідомі апріорно, рекомендується брати величини або , де - середнє вибіркове для вибірки , - вибіркова дисперсія, обчислена за вибіркою . Такий вибір меж відрізку базується на відомому в математичній статистиці "правилі ".

2. Обчислюється відрізок означення функції за умов (2.3.2), (2.3.3).

3. Задається апріорна функція розподілу та будується на відрізку , при цьому

(2.3.4)

4. Задається величина та будується на даному відрізку лінія обліку за формулою

(2.3.5)

де - номер лінії обліку; - число реалізацій, рівних за значенням до .

5. В точках відновлюються перпендикуляри до вісі абсцис та знаходяться точки перетину перпендикулярів: в точках з і-ми лініями обліку, в точках з (і+1)-ми лініями обліку.

6. Від точки до точки будується ламана лінія, яка зєднує всі знайденні точки перетину, при цьому оскільки точки та лежать на одній лінії обліку то ламана між цими точками йде за лініями обліку. Точки та зєднуються відрізком прямої. Знайдена ламана лінія є оцінкою функції розподілу. На рис. 2.3.1, як приклад наведено побудову за вибіркою обсягом .

Рис. 2.3.1. Графік оцінки функції розподілу

Методи АЕФ та МПВ, хоча й спрямовані на побудову оцінок різних функцій, відносяться до однієї групи методів, які базуються на використанні апріорної інформації, індивідуальному підході до реалізацій вибірок та "розмазуванні" інформації. Більш того, можна вважати, що метод АЕФ є теж методом прямокутних внесків. Розглянемо рисунок (2.3.2), де наведена оцінка щільності розподілу , побудована шляхом диференціювання , що зображена на рис. 2.3.1, за змінною х.

Рис. 2.3.2. Графік оцінки щільності розподілу

Оцінка складається з лінійної суми апріорної рівномірної на відрізку щільності та прямокутних внесків з відповідними вагами. Оцінка аналогічна до (2.1.6) в МПВ, але при цьому ширина внеску визначається тільки точністю вимірювальної апаратури . В цьому істотна слабкість методу, оскільки зі зміною точності вимірювань (появи більш досконалого приладу) буде змінюватись ефективність оцінювання.

Метод АЕФ має і сильну сторону. Відмова від прирівняння апріорної інформації та інформації, знайденої від окремої реалізації , та введення коефіцієнта достовірності інформації відрізняє метод АЕФ від МПВ та МЗН і є кроком вперед. Дійсно, апріорна інформація, яку має статистик, може мати різну природу, тому достовірність її може бути різною, а задання , як це зроблено в МПВ та МЗН, є обмеженням, яке знижує ефективність оцінювання розподілу вибірки.

3. Порівняння класичного методу та сучасних методів оцінювання малої вибірки

В дипломній роботі проведено експеримент, в якому кожен з розглянутих сучасних методів було порівняно з класичним методом.

Добувалась реалізація вибірки з відомого неперервного розподілу . Будувалась емпірична функція розподілу та оцінка функції розподілу одним з трьох методів оцінювання функції розподілу малої вибірки. Далі обчислювалось колмогорівське відхилення емпіричної функції розподілу від гіпотетичної

, (3.1.1)

а також відхилення побудоване аналогічно колмогорівському

, (3.1.2)

в якому замість емпіричної функції розподілу береться оцінка функції розподілу , обчислена одним з трьох методів (МПВ, МЗН, МАЕФ).

Відхилення (3.1.1) та (3.1.2) порівнювались так: фіксувався обсяг вибірки n добувалось 20 реалізацій вибірки , обчислювалось 20 відхилень (3.1.1) та (3.1.2). Для класичного методу рахувалось середнє та дисперсія вибірок з 20 відхилень (3.1.1):

; (3.1.3)

(3.1.4)

Для методів оцінювання функції розподілу малої вибірки рахувалось середнє та дисперсія вибірок з 20 відхилень (3.1.2):

; (3.1.5)

(3.1.6)

Розглядались три розподіла : рівномірний на проміжку [0,1], нормальний та експоненціальний з параметром .

В таблицях (3.1) - (3.9) наведено результати експериментів, які цілком очевидно свідчать на користь запропонованих методів оцінювання функції розподілу малої вибірки.