Логарифмічно-лінійний аналіз

контрольная работа

2. Аналіз звязку категоризованих змінних

Дуже часто вивчення взаємозвязків між якісними змінними зводитися до аналізу двох змінних х і у, які набувають низку значень - х1, …, хm і y1,…, yp. Позначимо номер рядка двовимірної таблиці через і (і = 1,…, m), номер стовпця - через j (j = 1,…,р). Кожен обєкт характеризується значеннями двох змінних хi і yj. У комірках таблиці записується число обєктів у вибірці, що володіють даним поєднанням значень ознак (коміркова частота) - nij.

Як правило, аналіз двовимірних таблиць спряженості обмежується висновками про наявність звязку і її тісноти. Класичним тестом, який використовується для встановлення факту наявності звязку, є критерій ч2. Величина ч2 звичайно визначається як сума квадратів між фактичними (nij) і теоретичними () частотами двовимірного розподілу, поділена на теоретичні частоти.

(2.1)

Нульовою гіпотезою є: . Розрахунок очікуваних частот двовимірного розподілу проводиться в припущенні про статистичну незалежність змінних

(2.2)

де - сума за і-тим рядком таблиці, - сума за j-м стовпцем таблиці (так звані маргінальні частоти). Обираючи рівень значущості л, визначають відповідне критичне значення критерію ч2л;df при числі ступенів вільності df = (m - 1)(p - 1). Якщо розрахункова величина ч2 перевищує критичне значення ч2л;df, то на даному рівні значущості нульова гіпотеза Н0 може бути відхилена.

Аналіз якісних змінних передбачає використання багатовимірних методів. Існуючі взаємозвязки між змінними вимагають їх спільного розгляду, переходу від парних звязків до аналізу множинних і частинних звязків, від двовимірних таблиць спряженості до складних комбінаційних таблиць. Ця потреба добре усвідомлюється дослідниками, але проте часто не реалізується.

Розглянемо ряд методів аналізу звязків якісних змінних і виявлення структури вихідних даних в багатовимірних комбінаційних таблицях. Перш за все зупинимося на простому прийомі аналізу, заснованому на розкладанні критерію ч2. Звичайно й оцінка значущості звязку, і вимірювання її інтенсивності проводитися за таблицею в цілому.

При цьому не виявляється дуже важлива інформація про зміну інтенсивності звязку змінних із зміною їх значень: при одних значеннях звязок ознак може бути щільним, при інших - слабким і навіть взагалі не спостерігатися. Узагальнюючи різний ступінь інтенсивності звязку в єдиному показнику, ми можемо дійти парадоксальних висновків, загубити практично значущі випадки. Щоб уникнути цього, корисно аналізувати окремі фрагменти початкової таблиці. Перехід від таблиці в цілому до окремих її частин доцільний як у разі багатовимірного аналізу, так і за наявності великого числа категорій двовимірного розподілу. На виділення частинних звязків заснована ціла низка статистичних методів, наприклад дисперсійний аналіз, логлінійний аналіз.

Використання розкладання статистики ч2 припускає перетворення вихідної таблиці спряженості в безліч таблиць розмірністю 2Ч2, кожна з яких характеризує особливий аспект звязку, що вивчається, - звязок між певними значеннями змінних. Число таких таблиць повинне дорівнювати числу ступенів вільності критерію ч2, при його обчисленні за вихідною таблицею. Кожний з локальних звязків у виділеному фрагменті загальної таблиці оцінюється за допомогою критерію ч2, що має одну степінь вільності. Звязок загальної величини статистики ч2 із значеннями, знайденими по виділених частинах таблиці, виражається рівністю:

(2.3)

де чk2 - k -та компонента загальної величини ч2, знайдена за загальною таблицею 2х2.

Рівність (2.3) справедлива при означенні оцінки ч2 методом максимальної правдоподібності (чML2), яка має вигляд:

(2.4)

Зазвичай вираз (2.4), знайдений відповідно до загального методу найменших квадратів, не має властивості адитивності: в цьому випадку сума окремих чk2 не обовязково буде точно дорівнювати загальному ч2 для всієї таблиці. Відмітимо, що властивість адитивності чML2 використовується в одному з сучасних методів багатовимірного аналізу якісних змінних - логлінійному аналізі.

3. Канонічна кореляція в аналізі таблиць спряженості

Один з напрямів аналізу таблиці спряженості повязаний з «оцифруванням» якісних ознак - з приписуванням градаціям якісних змінних числових міток. Такий підхід дозволяє розповсюдити на якісні дані методи багатовимірного статистичного аналізу, розроблені відносно кількісних змінних.

Іноді необхідно побудувати систему міток, що забезпечує максимум коефіцієнта кореляції між двома змінними (оптимальні мітки). Ця система міток і відповідна їй матриця кореляції використовується потім для факторного і регресійного аналізу. Знаходження оптимальних міток повязане з перетворенням частот таблиці в частоти двовимірного нормального розподілу, оскільки кореляція перетвореного розподілу не може за абсолютною величиною перевищувати кореляцію двовимірного нормального розподілу. Перетворені таким чином змінні називають канонічними змінними. Розглянемо використання оптимальних міток для аналізу структури даних - виділення в таблиці спряженості лінійних і нелінійних ефектів. Звичайно при вивченні таблиці спряженості не робиться ніяких припущень щодо характеру звязку змінних, тоді як в конкретних дослідженнях буває важливо зрозуміти, чи відповідає фактичний розподіл гіпотезі, що висувається, - наприклад, гіпотезі про наявність лінійного звязку - чи ні, чи є розузгодження фактичних і теоретичних частот випадковими чи дійсно звязок змінних включає ряд складних взаємозвязків.

Дослідити це питання дозволяє критерій ч2 через адитивні компоненти, які відповідають лінійним і нелінійним ефектам в структурі звязку між змінними. При цьому лінійні ефекти повязують з першим перетворенням змінних, нелінійні - з другим і т.д. перетвореннями. Адитивність ефектів випливає з ортогональності канонічних змінних.

Покажемо, що канонічний аналіз таблиці звязаності відповідає розкладанню статистики ч2 на ряд доданків, число яких залежить від розмірності таблиці. Перетворимо вираз таким чином:

(3.1)

(3.2)

Остання формула може бути подана за допомогою суми діагональних елементів, тобто слід симетричної матриці , де N - матриця розмірності (m Ч p) з елементами (m - число рядків таблиці, p - число стовпців):

(3.3)

Якщо число рядків таблиці не дорівнює числу стовбців, то, як правило, матрицю С формують так, щоб її розмірність була мінімальною (min(m,p)). Оскільки слід матриці дорівнює сумі її власних чисел, то вираз (3.3) приймає наступний вигляд:

(3.4)

де лk - k-е власне число матриці С.

Враховуючи, що власні числа є показниками кореляції (R2) між кожною парою канонічних змінних, виділених з вихідних наборів даних, запишемо рівність (3.4) у вигляді:

(3.5)

З m (або p) власних чисел матриці С максимальне завжди дорівнює одиниці, йому відповідає вироджений набір міток 1 = (1,...,1). Тому вираз (3.5) доцільно переписати так :

(3.6)

Найбільше з чисел, що залишилися (m - 1) або (p - 1) власних чисел відповідає гіпотезі лінійності звязку між категоризованими змінними; наступне за величиною значення лk відповідає гіпотезі про складніший характер взаємозвязку змінних. Така інтерпретація компонент ч2 представляється можливою з причини того, що кожна подальша пара канонічних змінних є функцією першої перетвореної пари, а все розкладання ч2 є спадаючою послідовністю.

Можна показати, що традиційні методи звязків, засновані на критерії ч2, змішують різні за характером звязки і знайдена міра є середньою з різних звязків, що ігноруються за однією таблицею. Це випливає з виразу (3.6), який дозволяє будь-який показник щільності звязку подати через канонічні кореляції. Наприклад, коефіцієнт взаємної спряженості Чупрова виглядатиме так:

(3.7)

Таблиці 2Ч2 виділяються два власних числа матриці С. Оскільки перше дорівнює одиниці, то квадрат канонічної кореляції дорівнює квадрату коефіцієнта спряженості Пірсону:

(3.8)

Канонічні змінні дозволяють одержати якнайкраще, в сенсі деякого критерію, наближення коміркових частот таблиці спряженості. Як показали М. Кендалл і А. Стьюард, кожна спостережувана комірка може бути розбита на теоретичну частоту, яка відповідає гіпотезі про незалежність змінних, і адитивний внесок, повязаний з канонічною кореляцією:

(3.9)

де хik - канонічна мітка для і-ого рядка к-го власного числа; yjk - канонічна мітка для j-го стовпця і к-го власного числа.

Відповідно є можливість подати вихідну таблицю спряженості у вигляді серії таблиць, кожна з яких відповідає певній гіпотезі звязку змінних (тобто частоти таблиці, обчислені при тому або іншому власному числі лk матриці С).

Існує ряд способів знаходження канонічних міток. Найшвидше приводить до мети наступний порядок дій: спочатку визначаються хik діленням кожної компоненти відповідного власного вектора на корінь квадратний з маргінальної частки; потім визначаються yjk - шляхом усереднювання міток рядків для кожного j - й стовпця.

(3.10)

Набори міток хik і yjk, зважені за відповідними маргінальними частотами, мають нульові середні й одиничні дисперсії.

Делись добром ;)