Парадокси в математичній статистиці

дипломная работа

2.5.1 Історія парадоксу

До останньої третини минулого століття деякі науки (наприклад, молекулярна фізика) досягли такого рівня розвитку, що стало необхідним використання в них теорії ймовірностей і математичної статистики. У 1859 р. книга Дарвіна спричинила революцію в біології і незабаром після цього родич Дарвіна Френсис Гальтон заклав основи генетики людини. (Дослідження Менделя з генетики були знов "відкриті" лише на рубежі століть; слово "генетика" використовується лише з 1905 р., але результати Гальтона привернули загальну увагу вже в минулому столітті) Гальтон і його учні (особливо Карл Пірсон) ввели такі важливі поняття, як кореляція і регресія, які стали основними поняттями в теорії ймовірностей і математичній статистиці (а також в повязаних з ними науках). Вага і зріст людини, природно, тісно повязані між собою, але вони не визначають один одного однозначно. Кореляція виражає цей звязок одним числом, абсолютна величина якого не перевершує 1. Для двох випадкових величин і кореляція визначається таким чином. Нехай і , і позначають математичне сподівання і стандартне відхилення і відповідно. Тоді коефіцієнт кореляції (або коротко кореляція) для і визначається формулою

(2.5.1.1)

Абсолютне значення кореляції максимальне (тобто дорівнює 1), якщо між і існує лінійна залежність, тобто . Якщо і незалежні (і їх дисперсії кінцеві), то їх кореляція дорівнює 0, іншими словами, вони некорельовані. У математичній статистиці оцінкою для кореляції , як правило, є вибірковий коефіцієнт кореляції, який будується за незалежною вибіркою так:

(2.5.1.2)

У ряді випадків добре описує звязок між і , але вже на рубежі століть обчислювалися залежності, позбавлені сенсу; наприклад, кореляція між числом гнізд лелек і числом немовлят. Поняття кореляції поступово містифікувалося і деякі "внутрішні" (взагалі кажучи, випадкові) звязки стали вважати такими, що існують, якщо була виявлена велика кореляція (тобто близька за абсолютною величиною до 1). Ось чому виникли абсолютно абсурдні результати, і це ледве не дискредитувало всю статистику. Як правило, ігнорувався той факт, що велика кореляція для і може бути результатом впливу якоїсь третьої величини. Наприклад, в Англії й Уельсі відмітили, що із збільшенням числа радіослухачів зростало число божевільних і розумово відсталих людей. Проте така інтерпретація абсолютно помилкова, оскільки не можна психічно захворіти від того, що слухаєш радіо. Справа лише в тому, що з часом зростає і число радіослухачів, і число випадків психічних захворювань, але між ними немає жодної причинної залежності. На жаль, невірні тлумачення не завжди настільки очевидні, наприклад, в технічних або економічних застосуваннях. Порівняння віросповідання і зростання людей дає ще один приклад надуманої залежності, згідно якої при прямуванні від Шотландії до Сіцілії доля католиків в населенні поступово зростає і в той же час середнє зростання людей спадає. Проте будь-який причинний звязок тут абсолютно неможливий. Розглянемо деякі парадокси кореляції.

2.5.2 Парадокси

2.5.2.1 Нехай випадкова величина рівномірно розподілена на інтервалі і . Очевидно, що між і існує тісний звязок, проте їх кореляція . (Кореляція для і завжди дорівнює нулеві, коли - випадкова величина зі скінченою дисперсією і симетричним відносно нуля розподілом)

2.5.2.2 Нехай - величини температуру в кімнаті в різних моментів часу і - кількість палива, яке використовують для обігріву в ті ж самі моменти часу (точніше, за даний проміжок часу). Логічно вважати, що чим більше палива використано, тим тепліше буде в кімнаті. Це означає, що кореляція для і У строго додатна.

Проте кореляція може виявитися відємною, що може бути інтерпретовано так: чим більше палива використано, тим стає холодніше.

2.5.2.3 Нехай випадковий вектор розподілений нормально, тобто щільність має вигляд

де - математичне сподівання і дисперсія величин і , а - їхня кореляція. Припустимо, що абсолютна величина кореляції строго менше 1. При невідомій кореляції ми можемо оцінити її за допомогою

,

використовуючи вибіркових значень. Якщо і відомі, то доцільно у формулі для замінити і відповідно на і . Таким шляхом отримаємо нову оцінку

.

Оскільки використовує більше інформації (а саме, значення величин і ) можна було б чекати, що дисперсія в менше, ніж в .

Проте А. Стюарт обчислив, що

тоді як

таким чином, остання дисперсія більша.

2.5.3 Пояснення парадоксів

2.5.3.1 Якщо і незалежні, то , але обернене твердження, взагалі кажучи, не вірне. Не корельовані випадкові величини можуть бути залежні, наприклад, як у вказаному вище прикладі, коли . Тому "некорельованість" не слід розуміти як незалежність.

2.5.3.2 Не можна забувати про вплив температури поза кімнатою! Кореляції часто виходять абсолютно неймовірними тому, що обчислюваний коефіцієнт кореляції для двох випадкових величин викривляється третьою що "ззовні впливає". Якраз для того, щоб уникнути цих перешкод, було введено поняття частої кореляції. Якщо кореляція для і У обчислюється лише після того, як вплив величини виключено, то результат перестає бути парадоксальним. Нехай і позначають кореляції і лінійними випадковими величинами та У, та , У та відповідно. Тоді частинна кореляція для і У без впливу дорівнює

У частковому випадку, коли часткова кореляція для і збігається з кореляцією . Коли і невідомі, їх можна оцінити за вибіркою аналогічно тому, як це відбувалося для . За допомогою цих оцінок отримаємо оцінку коефіцієнта частинної кореляції.

2.5.3.3 Парадокс Стюарта можна розглядати з різних точок зору. Головне полягає в тому, що оцінки і не є незміщеними оцінками для , тобто рівність і невірні, тому недоцільно вважати кращою ту оцінку, в якої дисперсія менша.

Мал.2.5.3.3.1 Розглянемо випадкові величини як вектори. Тоді кореляція для випадкових величин і дорівнює косінусу кута між векторами і , а їх частинна кореляція - косінусу кута між проекціями цих векторів на площину, перпендикулярну вектору .

У той же час обидві оцінки і зміщені несильно (вони є асимптотично незміщеними), отже, для пояснення парадоксу потрібний додатковий аналіз.

2.5.4 Зауваження

Зсув оцінки (у випадку двовимірного нормального розподілу) дорівнює

де позначає вираз, який множенням на , збігається до 0. Таким чином, зсув достатньо швидко прямує до 0 (при збільшенні обсягу вибірки ). З іншого боку, цікаво відзначити, що є незміщеною оцінкою для і, якщо для деякої функції , незалежної від , то , де - довільні сталі. У 1958 р. І. Олкін і Дж. Пратт довели що, якщо оцінка коефіцієнта кореляції явно залежить від , то можна вказати незміщену оцінку для , а саме

де - гіпергеометрична функція, яка визначається формулою

,

де є параметрами. А серед незміщених оцінок вже слід віддати перевагу тим, в яких дисперсія мінімальна. Можна показати, що оцінка не лише є незміщеною, але і має найменшу дисперсію. Проте для практичних застосувань оцінка достатньо складна, тому рекомендується використовувати її апроксимацію

.

2.6 Парадокси регресії

2.6.1 Історія парадокса

Коефіцієнт кореляції описує залежність між двома випадковими величинами одним числом, а регресія виражає цю залежність у вигляді функціонального співвідношення і тому дає більш повну інформацію. Наприклад, регресією є середня вага тіла людини як функція від його зросту. Поняття "регресія" запровадив Гальтон, який у кінці минулого століття порівнював зріст батьків зі зростом їх дітей. Він виявив, що зріст дітей у високих (або низьких) батьків звичайно вище (або нижче) середнього, але не співпадає зі зростом батьків. Лінія, яка показує, у якій мірі зріст (та інші характеристики) регресують (відновлюються) у середньому у наступних поколіннях, була названа Гальтоном лінією регресії.

Мал.2.6.1. Лінія регресії Гальтона.

Пізніше регресією стали називати будь-яку функціональну залежність між випадковими величинами. Спочатку регресійний аналіз застосовувався у біології і найважливішим науковим журналом, у якому висвітлювалась ця тема, був журнал "Біометрика" (“Biometrika”), який виходив з жовтня 1901 р. Між 1920 та 1930 р. великого значення набуло використання регресійного аналізу у економіці та виникла нова галузь науки: економетрика (термін належить Р. Фрищу (1926), який пізніше отримав Нобелевську премію). Від вивчення часткових регресійних задач дослідники поступово перейшли до регресійного аналізу структури, яка властива глобальним економічним системам. (Дж. Кейнс, Я. Тінберг та інші, наприклад, Р. Клейн, якому у 1980 р. присуджена Нобелевська премія з економіки).

Журнал "Технометрика" (“Technometrics”) виходить з 1959 р. і в основному присвячений технічним додаткам. Регресійний аналіз величини , визначається за іншою величиною , коли важко вимірити, а достатньо легко, досить важливий.

2.6.2 Парадокси

Припустимо, що залежність двох величин виражається функцією наступного вигляду , (наприклад, ), де невідомі тільки параметри (а функція відома, наприклад, лінійна квадратична і т.д.). Якщо ми можемо виміряти значення тільки з випадковими похибками спостережень, тобто замість ми спостерігаємо значення , які схильні до помилок, то згідно з методом найменших квадратів оцінки невідомих параметрів мінімізують суму квадратів

2.6.2.1 Якщо , то оцінка параметра мінімізує суму квадратів

(2.6.2.1 1)

У цьому випадку задача обчислення рівняння регресії звичайно спрощується, якщо обчислити логарифм від обох членів різниці, які знаходяться у дужках, і мінімізувати таку суму квадратів

(2.6.2.1 2)

Але ці два підходи до мінімізації дають різні оцінки. Який вихід з цієї парадоксальної ситуації?

2.6.2.2 Припустимо, що тип функції можна обрати різними способами, наприклад, - це багаточлен, а - експоненціальна функція. Оберемо той тип, для якого вказана вище сума квадратів менша (при оптимальному виборі параметрів). Хоча цьому принципі часто віддають перевагу на практиці, звичайно він не виправданий (іноді необхідно встановлювати хоча б теоретичну можливість такого вибору).

2.6.2.3 Нехай - теоретична лінія регресії та , де () - незалежні нормально розподілені похибки з математичним сподіванням і дисперсією ( - невідома константа). Тепер припустимо, що спостереження ідеально погоджуються з лінією регресії, тобто для деякого та

Тоді оцінка параметра за методом найменших квадратів дорівнює , але, як не парадоксально, вона не є "найкращою" оцінкою (у сенсі максимальної правдоподібності).

2.6.3 Пояснення парадоксів

2.6.3.1 Методу найменших квадратів відповідає перша сума квадратів. Розглянемо мінімізацію суми квадратів

де - монотонно зростаюча функція (наприклад, ). Добрий вибір "лінеаризує" задачу, тобто вираз для є лінійною функцією від невідомих параметрів (у цьому випадку легко знаходяться оптимальні значення для ). Якщо ми хочемо визначити невідомі параметри , користуючись методом найменших квадратів, то ймовірно, краще обрати другий спосіб. Але іноді треба мінімізувати все ж вихідну суму, наприклад, коли відомо, що наслідком помилки є фінансові втрати, пропорційні цій сумі, хоча така ймовірність зовсім не типова.

2.6.3.2 Перша частина питання дуже проста: сума квадратів може виявитися менша для , ніж для , але якщо взяти більше вибіркових значень, то сума квадратів стає менша при виборі .

Математична статистика намагається уникати подібних нестійких ситуацій. Існує декілька методів прийняття рішень, які застосовні у ряді випадків і вказують вибір із заданою надійністю, наприклад, 99% (тобто функція відкинута, то ймовірність того, що вірним є вибір , дорівнює 1%).

2.6.3.3 Оцінка не підходить, оскільки тоді оцінка для дорівнювала б нулю, що суперечить умові

.

Більш виправданою буде оцінка (максимальної правдоподібності)

.

2.7 Парадокси достатності

Делись добром ;)