logo
Статистика

Лабораторная работа №15. Изучение критерия хи-квадрат Пирсона

Рассмотрим задачу по проверке близости теоретической и эмпирической функций распределения для дискретного распределения. При этом закон распределения задаётся набором вероятностей р1, ..., рk, а гипотеза сводится к тому, что эти вероятности приняли определенные значения. То есть гипотеза Н0: р1 = р10, р2 = р20, ..., рk = рk0. Для решения такой задачи используется теорема Пирсона. Теорема Пирсона Пусть n - число независимых повторений некоего опыта, который заканчивается одним из k (k - натуральное число) элементарных исходов А1, ..., Аk, причём вероятности этих исходов - р1, ..., рk, p1 + ... + рk = 1. Обозначим через m1, ...,mk (m1 + ... + mk = n) то количество опытов, которые закончились исходами А1, ...,Аk. Введем случайную величину . Тогда при неограниченном росте n → ∞ случайная величинаасимптотически подчиняется распределениюс (k - 1) степенями свободы. Для проверки гипотезы Н0 о том, что вероятности р1,…, рk приняли определенные значения Н0: р1 = р10, р2 = р20, ..., рk = рk0, рассмотрим следующую статистику: Статистика называется статистикой хи-квадрат Пирсона для простой гипотезы. Фактически величина X²/n представляет собой квадрат некоего расстояния между двумя k-мерными векторами: вектором наблюдаемых относительных частот (mi/n) и вектором предсказанных ненаблюдаемых вероятностей (рi0). От евклидового расстояния это расстояние отличается тем, что разные координаты входят в него с разными весами. Если верна гипотеза Н0, то асимптотическое поведение X² при n → ∞ указывает теорема Пирсона. Чтобы понять, что происходит, когда Н0 неверна, заметим, что по закону больших чисел (mi/n) → рi при n → ∞ для всех допустимых i = 1, ...,k. Поэтому при n → ∞: . Если гипотеза неверна, то X² → ∞ при n → ∞. Значит, гипотеза Н0 должна быть отвергнута, если полученное в опыте значение X² слишком велико. Термин "слишком велико" означает, что наблюденное значение X² имеет малую вероятность, то есть превосходит критическое значение, которое легко рассчитать в Maple или взять из таблиц распределения хи-квадрат. Так как вероятность Р(≥ X²) - малая величина, то маловероятно случайно получить такое же, как в опыте, или еще большее расхождение между вектором частот и вектором вероятностей. Асимптотический характер теоремы Пирсона, лежащий в основе этого правила, требует осторожности при его практическом использовании. На него можно полагаться только при больших n. Достаточно велико должно быть и n, и все и произведения npi. Проблема применимости аппроксимации (непрерывное распределение) к статистике X², распределение которой дискретно, оказалась сложной. Согласно имеющемуся опыту, аппроксимация применима, если все ожидаемые частоты npi > 10. Если число различных исходов k велико, граница для npi может быть снижена (до 5 или даже до 3, если k порядка нескольких десятков). Чтобы соблюсти эти требования, на практике порой приходится объединять несколько исходов и переходить к схеме Бернулли с меньшим k. Описанный способ для проверки согласия можно прилагать не только к испытаниям Бернулли, но и к произвольным группам данных. Предварительно наблюдения надо превратить в испытания Бернулли путем группировки. Делают это так: пространство наблюдений разбивают на конечное число непересекающихся областей, а затем для каждой области подсчитывают наблюденную частоту и гипотетическую вероятность. При разбиении надо заботиться о том, чтобы правило проверки гипотезы об исходном распределении данных было достаточно чувствительным к возможным альтернативам, то есть нельзя, например, все данные объединить в одну область. Вопрос о сравнении наблюденных в опыте частот с теми, которые предписывает теория (ради проверки этой теории) возникает во многих задачах. Рассмотрим способ сопоставления наблюдаемых частот с частотами, рассчитанными по модели. Обозначим наблюдаемые частоты через Н; ожидаемые (теоретические) частоты - Т. Если модель правильно описывает действительность, числа Н и Т должны быть близки друг к другу, сумма квадратов отклонений (Н - Т)² не должна быть большой. Разумно в общую сумму отдельные слагаемые вносить с различными весами, поскольку чем больше Т, тем больше Н может от него отклоняться за счет действия случая без отступления от модели. В качестве меры близости наблюдаемых и ожидаемых частот используется величина:

,

где сумма берется по всем ячейкам таблицы сопряженности, служащая мерой согласия опытных данных с теоретической моделью. Если в конкретном опыте величина X² оказывается чрезмерно большой, считают, что ожидаемые частоты слишком сильно отличаются от наблюдаемых и отвергают нулевую гипотезу. Распределение случайной величины X² в случае, когда гипотеза верна, находят, используя следующую теорему. Теорема (К.Пирсон, Р.Фишер). Если верна модель, по которой рассчитаны теоретические частоты Т, то при неограниченном росте числа наблюдений распределение случайной величины X² стремится к распределению хи-квадрат. Число степеней свободы этого распределения определяется как разность между числом событий и числом связей, налагаемых моделью. В рассматриваемом примере число событий - это число ячеек в таблице сопряженности, то есть число событий вида AiBj. Оно равно rs = 4. Связи возникали при подсчёте средних. Число таких независимых соотношений равно r для строк, s - для столбцов, одна связь общая, число степеней свободы распределения хи-квадрат при проверке независимости равно: rs - (r - 1) - (s - 1) - 1 = (r - l)(s - 1). Для статистики X² существует другая форма: только при большом числе наблюдений n. Считается достаточным, чтобы по всем ячейкам теоретические частоты были бы не меньше 5. Есть данные, что это ограничение в задаче независимости признаков можно снизить до 3, так что должно выполняться соотношение: ni. n.j /n > 3. Требования к ожидаемым частотам смягчаются при увеличении числа степеней свободы. Если гипотеза независимости неверна, для зависимых признаков X² неограниченно возрастает при увеличении n. Поэтому большие значения X² указывают на взаимную зависимость признаков. В примере расчет, дает Xн² = 12,6. Число степеней свободы для таблицы 3×3 равно 4. Вычислив: 1,3%, где ρ(х) - плотность распределения(4), находим оценку вероятности того, что наблюдённое (или большее) значение получено случайно. Если пользоваться таблицей верхних процентных точек распределения(4), то найдём, что Xн² = 9,5 соответствует вероятность 5%, а 13,2 - 1%. Можно считать, что в примере признаки не являются независимыми, связь между ними проявляется. Говорят, что данная таблица значима. В простейшем частном случае таблиц сопряженности, когда признаки А и В принимают только по 2 значения:

,

рекомендуется модифицированная статистика:

,

Вопросы для самопроверки

В чём отличие группированного статистического ряда от упорядоченной статистической совокупности

В чём отличие частоты от вероятности

Вопросы к экзаменам

1.Первичная статистическая совокупность, её упорядочение

2. Статистическая функция распределения.

3. Группированный статистический ряд.

4. Гистограмма.

5. Выравнивание статистических распределений.

Именной указатель

Перечень сокращений

29