Проверка статистических гипотез, применение универсальных методов теории вероятностей и математической статистики

курсовая работа

1.1 Проверка статистической гипотезы

Внесем все данные в вычислительную среду IBM SPSS Statistics.

IBM SPSS Statistics - это программное обеспечение для статистического анализа, которое обеспечивает необходимые базовые функции для проведения анализа от начала до конца. Его легко использовать, и оно включает в себя ряд процедур и методов, помогающих увеличивать прибыль, обходить конкурентов, проводить исследования и принимать лучшие решения [1].

IBM SPSS Statistics предлагает серьезные средства статистического анализа на каждом шаге аналитического процесса таких как:

1) полноценный набор статистических процедур для проведения точного анализа;

2) встроенные методы быстрой и легкой подготовки данных для анализа;

3) тщательно разработанная функциональность для отчетов, обеспечивающая высокоэффективное создание диаграмм;

4) мощные возможности визуализации, которые ясно показывают смысл ваших результатов;

5) поддержка всех типов данных, включая очень большие наборы данных.

Рабочая область IBM SPSS Statistics показана на рисунке 1.

Рисунок 1. Рабочая область IBM SPSS Statistics

Приведем данные к удобному виду с помощью IBM SPSS Statistics в соответствии с рисунком 2.

Рисунок 2. Данные эксперимента в вычислительной среде SPSS

На основании данных этого опроса в программе SPSS был проведен частотный анализ. Результаты частотного анализа приведены на рисунке 3.

Рисунок 3.Частотный анализ

По частотному анализу в данном случае видно, что совокупность данных мультимодальна, мода и медиана не равны, следовательно данные не подчиняются нормальному закону распределения [2]. Проверим гипотезу на равномерный закон распределения. Но для того, чтобы удобно было производить проверку гипотезы необходимо чтобы закон распределения был равномерным.

Для проверки соответствия полученного закона распределения, равномерному будем использовать одновыборочный тест 5L2. Существуют два типа задач решаемых с помощью этого теста [3]. Во-первых, сравнение эмпирического распределения качественных признаков с теоретическим. Во-вторых, сравнение между собой двух или более эмпирических распределений качественных признаков. В нашем случае будет использован первый тип [4].

Критерий согласия для проверки гипотезы о законе распределения исследуемой случайной величины. Во многих практических задачах точный закон распределения неизвестен. Поэтому выдвигается гипотеза о соответствии имеющегося эмпирического закона, построенного по наблюдениям, некоторому теоретическому. Данная гипотеза требует статистической проверки, по результатам которой будет либо подтверждена, либо опровергнута [5].

Пусть X - исследуемая случайная величина. Требуется проверить гипотезу H0 о том, что данная случайная величина подчиняется закону распределения F(x). Для этого необходимо произвести выборку из n независимых наблюдений и по ней построить эмпирический закон распределения F(x). Для сравнения эмпирического и гипотетического законов используется правило, называемое критерием согласия. Одним из популярных является критерий согласия хи-квадрат К. Пирсона [6].

В нем вычисляется статистика хи-квадрат:

, (1)

где Oj - наблюдаемые, или эмпирические, значения;

Ej - ожидаемые, или теоретические, значения;

k - количество категорий.

Если вычисленное значение статистики превосходит квантиль распределения 5L2 с k-p-1 степенями свободы для заданного уровня значимости, то гипотеза H0 отвергается. В противном случае она принимается на заданном уровне значимости. Здесь k - число наблюдений, p - число оцениваемых параметров закона распределения.

Что касается вида теоретического распределения, то в нашем случае используется равномерное распределение. Смысл его в том, что все результаты считаются равновероятными. В наших экспериментах было шесть исходов это 0, 1, 2, 3, 4 и 5, то есть событие равно 1/6=0,667. Иными словами если бы эмпирическое распределение результатов полностью совпало с теоретическим, то в каждую ячейку таблицы попало бы одинаковое число событий, равное 40/6=6,667. С учетом данного обстоятельства записывается окончательный вариант расчетной таблицы 2 для задачи.

Таблица 2

Расчетная таблица

События

0

1

2

3

4

5

Теоретическая частота

6,667

6,667

6,667

6,667

6,667

6,667

Эмпирическая частота

3

14

14

6

2

1

С учетом введенных обозначений перейдем от таблицы 2 к таблице 3.

Таблица 3

Распределение теоретических и эмпирических частот

Категории

0

1

2

3

4

5

Ожидаемые и эмпирические частоты

Е1=6,667

О1=3

Е2=6,667

О2=14

Е3=6,667

О3=14

Е4=6,667

О4=6

Е5=6,667

О5=2

Е6=6,667

О6=1

Существует два вида статистических гипотез параметрические и непараметрические.

Предположение, которое касается неизвестного значения параметра распределения, входящего в некоторое параметрическое семейство распределений, называется параметрической гипотезой, другими словами можно сказать, если заранее известно или можно предположить о каком распределении будет идти речь, то такая гипотеза называется параметрической в противном случае непараметрической. Чаще всего гипотезы основанные на большой выборке будут параметрическими и иметь нормальный закон распределения.

Формируем нулевую и альтернативную гипотезы и зададим уровень значимости б =0,05.

Нулевая гипотеза имеет следующую формулировку: события является равномерными.

Тогда альтернативная гипотеза : cобытия неравномерны.

Затем вычисляется сумма отклонений между наблюдаемыми и теоретическими значениями по формуле (1).

Полученное значение--5L2эмпир сравнивается со значением 5L2критич, которое берется из приложения А критических значений теста 5L2 в зависимости от выбранного уровня значимости б и числа степеней свободы df. df зависит от размера расчетной таблицы и равно =4.

Если--значение5L2эмпир--меньше--5L2критич,--то--нет--оснований--отвергнуть--нулевую--гипотезу.--Это--значит--что--нет--значимых--различий--между--эмпирическим--и--теоретическим--распределений.--Если--значение5L2эмпир--больше--или--равно--5L2критич,--то--нулевая--гипотеза--отвергается--и--принимается--альтернативная.

Высчитываем--5L2:

Из таблицы 1приложения находим, что для df=5 и б=0,05 5L2критич=11,07. Поскольку 5L2эмпир больше, чем 5L2критич, то нулевая гипотеза отклоняется и принимается альтернативная. Альтернативная гипотеза : cобытия неравномерны.

Делись добром ;)