logo
Статистические критерии определения выбросов в непрерывных статистических данных

3.1 Исследование распределения статистик по критериям согласия Колмогорова и Смирнова

Критерии согласия проверяют основную гипотезу : о равенстве эмпирической функции распределения теоретической, соответственно альтернативная гипотеза : [3].

Колмогоров также нашел предельное распределение статистики - эта статистика имеет распределение Колмогорова [5].

Критическая область имеет вид [5]:

Нижняя граница критической области определяется из таблиц в зависимости от заданного уровня значимости (см. приложение А).

Проверим по критерию согласия Колмогорова распределение статистики (см формулу (1.18)) в критерии Дарлинга, которая при выполнении гипотезы стремиться к нормальному распределению с параметрами

где - объем выборки.

Напишем в пакете R функцию вычисляющую статистику . Для определения статистики воспользуемся формулой (3.1), а для критической области - формулой (3.2), где уровень значимости

Данной функции в качестве аргументов передаем случайную величину - рассматриваемую статистику, математическое ожидание и дисперсию, вычисленные по формулам (3.3) и (3.4). В примере статистика моделируется в цикле из статистик при выполнении гипотезы . Теоретически эта статистика имеет нормальное распределение, поэтому в функции используется стандартная функция [6], моделирующая функцию нормального распределения с заданными параметрами.

Переменная - это значение принимаемой гипотезы. В результате эта переменная принимает значение “H0”, т.е. распределение смоделированной статистики соответствует теоретическому - нормальному распределению с параметрами, определяемыми формулами (3.3) и (3.4).

При увеличении количества получаемых статистик, ошибка (разница между теоретической и эмпирической функциями распределения) убывает и становится близкой к нулю. Критерий согласия Смирнова также основан на расстоянии между теоретической и эмпирической функциями распределения вероятностей. В нем рассматривается следующая статистика [3]:

где - элемент вариационного ряда.

Статистика при выполнении нулевой гипотезы стремиться по вероятности к некоторому закону распределения.

Для критических значений статистики существуют таблицы (см. приложение А), а критическая область записывается [3].

Исследуем эту же статистику , полученную при применении критерия Дарлинга по критерию согласия Смирнова.

Реализуем в программе функцию для нахождения статистики .

Аргументами этой функции являются случайная величина - проверяемая статистика, математическое ожидание и дисперсия, определяемые по формулам (3.3) и (3.4). Поскольку исследуется на согласие статистика , имеющая нормальное распределение при выполнении нулевой гипотезы, то в функции используем стандартную функцию для нормального распределения [6].

В рассмотренном примере для статистики получили значение , которое не принадлежит критической области на уровне значимости 0.05. Поэтому принимается гипотеза о согласованности эмпирической и теоретической функций распределения (теоретическая функция имеет нормальное распределение с параметрами и , см. формулы (3.3) и (3.4)).

Построим графики зависимостей статистик и от объема моделируемой статистики при выполнении нулевой гипотезы.

В результате исследования распределения статистики по критериям согласия получили, что эмпирический закон распределения моделируемой статистики стремиться к теоретическому - нормальному распределению с параметрами и , определяемыми по формулам 3.3 и 3.4.