logo search
Статистика

Лабораторная работа №14. Изучение критериев Колмогорова и омега-квадрат

Решение статистических задач обычно содержит два этапа: предположение о распределении исследуемой случайной величины и изучение этой величины в рамках сделанного предположения. При этом, естественно, необходимо установить, насколько предположения о распределении случайных величин соответствуют экспериментальным данным. Принято ставить вопрос в форме: не вступает ли принятая статистическая модель в противоречие с имеющимися данными. Критерии, решающие такую задачу, называют критериями согласия. Критериями согласия называют статистические критерии, предназначенные для обнаружения расхождений между гипотетической статистической моделью и реальными данными, которые эта модель призвана описать. Считаем, что наблюдения представляют случайную выборку, а теоретическая модель описывает закон распределения вероятностей, который управляет случайным выбором. Важно, что это распределение должно быть выбрано независимо от тех данных, по которым будем его проверять. Иначе говоря, недопустимо сначала "подогнать" по выборке некоторый закон распределения, а потом пытаться проверить согласие с полученным законом по этой же выборке. Допускается разбить выборку на две части, по одной "подогнать" закон распределения, а по другой - проверить его. Говоря о теоретическом законе распределения, которому гипотетически должны бы следовать элементы данной выборки, надо различать простые и составные гипотезы об этом законе:

Например, для ошибок округления при измерении расстояний с помощью линейки со шкалой 1 мм разумно предположить, что их распределение - равномерное на отрезке от -0.5 мм до 0.5 мм. Эта гипотеза является простой. А при исследовании сумм, вложенных вкладчиками в банк, целесообразно предположить, что они описываются логнормальным распределением с неизвестными средним и дисперсией. Эта гипотеза - сложная, она представляет собой двухпараметрическое семейство распределений. Рассмотрим ситуацию, когда измеряемые данные являются числами, то есть, одномерными случайными величинами, распределение которых может быть полностью описано указанием их функции распределения G(x). Требуется проверить близость теоретической и эмпирической (выборочной) функций распределения. Пусть имеем выборку размера n. Обозначим истинную функцию распределения, которой подчиняются наблюдения, G(x), эмпирическую (выборочную) функцию распределения - Fn(x), а гипотетическую функцию распределения - F(x). Тогда гипотеза Н0, что истинная функция распределения есть F(x), записывается в виде: Н0: G(x) = F(x), x. Если Н0 верна, то Fn и F должны проявлять определенное сходство, и различие между ними должно убывать с увеличением n (теорема Бернулли). Для выражения сходства функций можно использовать то или иное расстояние между этими функциями. Например, можно определить максимальное различие: Dn = sup |Fn(x) - F(x)|. Статистику Dn называют статистикой Колмогорова. Dn - случайная величина, поскольку ее значение зависит от случайного объекта Fn. Если гипотеза Н0 справедлива и n → ∞, то Fn(x) → F(x) при всяком х. Поэтому естественно, что при этих условиях Dn → 0. Если же гипотеза Н0 неверна, то Fn → G и G ≠ F, а потому sup |Fn(x) - F(x)| → sup |G(x) - F(x)|. Последняя величина положительна, так как G не совпадает с F. Такое различие в поведении Dn в зависимости от того, верна Н0 или нет, позволяет использовать Dn как статистику для проверки Н0. Как всегда при проверке гипотезы, рассуждаем так, как если бы гипотеза была верна. Ясно, что Н0 должна быть отвергнута, если полученное в эксперименте значение статистики Dn кажется неправдоподобно большим. Но для этого надо знать, как распределена статистика Dn при гипотезе Н0 при заданных n и G. Замечательное свойство Dn состоит в том, что если G = F, т.е. если гипотетическое распределение указано правильно, то закон распределения статистики Dn оказывается одним и тем же для всех непрерывных функций G. Он зависит только от объема выборки n. Доказательство этого факта основано на том, что статистика не изменяет своего значения при монотонных преобразованиях оси х. Таким преобразованием любое непрерывное распределение G можно превратить в равномерное на отрезке [0, 1]. При этом Fn(x) перейдет в функцию распределения выборки из этого равномерного распределения. При малых п для статистики Dn при гипотезе Н0 составлены таблицы процентных точек. При больших п распределение Dn (при гипотезе Н0) указывает найденная в 1933 г. А.Н.Колмогоровым предельная теорема. Она говорит о статистике (поскольку сама величина Dn → 0 при Н0, приходится умножать ее на неограниченно растущую величину, чтобы распределение стабилизировалось). Теорема Колмогорова утверждает, что при справедливости Н0 и если G непрерывна: . Эта сумма очень легко считается в Maple. Для проверки простой гипотезы Н0: G = F требуется по исходной выборке вычислить значение статистики Dn. Для этого годится простая формула:

,

хk - элементы вариационного ряда, построенного по исходной выборке. Полученную величину Dn затем надо сравнить с извлеченными из таблиц или рассчитанными по асимптотической формуле критическими значениями. Гипотезу Н0 приходится отвергать (на выбранном уровне значимости), если полученное в опыте значение Dn превосходит выбранное критическое значение, соответствующее принятому уровню значимости. Другой популярный критерий согласия получим, измеряя расстояние между Fn и F в интегральной метрике. Он основан на так называемой статистике омега-квадрат:

Для его вычисления по реальным данным можно использовать формулу:

При справедливости гипотезы Н0 и непрерывности функции G распределение статистики омега-квадрат, так же, как распределение статистики Dn, зависит только от n и не зависит от G. Так же, как для Dn, при малых n имеются таблицы процентных точек, а для больших значений n следует использовать предельное (при n → ∞) распределение статистики n. Здесь снова приходится умножать на неограниченно растущий множитель. Предельное распределение было найдено Н.В.Смирновым в 1939 г. Для него составлены подробные таблицы и вычислительные программы. Важное с теоретической точки зрения свойство критериев, основанных на Dn и : они состоятельны против любой альтернативы G ≠ F. Статистический критерий для проверки гипотезы Н называют состоятельным против альтернативы Н', если вероятность с его помощью отвергнуть Н, когда на самом деле верна Н', стремится к 1 при неограниченном увеличении объема наблюдений. Состоятельный против всех альтернатив критерий, в принципе, при большом числе наблюдений, способен обнаружить любое отступление от гипотезы. Таким образом, состоятельность критериев Колмогорова и омега-квадрат означает, что любое отличие распределения выборки от теоретического будет с их помощью обнаружено, если наблюдения будут продолжаться достаточно долго. Практическую значимость свойства состоятельности не велика, так как трудно рассчитывать на получение большого числа наблюдений в неизменных условиях, а теоретическое представление о законе распределения, которому должна подчиняться выборка, всегда приближённое. Поэтому точность статистических проверок не должна превышать точность выбранной модели. Свойство состоятельности является желательным.