logo search
Konspekt_lektsy

43.Критерий согласия Пирсона «Хи-квадрат» ( )

На практике часто возникают задачи, связанные с тем, что вид закона распределения исследуемого признака – гипотетический и подлежит проверке. Если проводить графическое сравнение полигона или гистограммы частот с кривой распределения, то можно получить представление, по крайней мере с качественной стороны, о большей или меньшей близости теоретического и эмпирического распределений.

Предположим, что выборка извлечена из генеральной совокупности с неизвестной теоретической функцией распределения , относительно которой имеются две непараметрические гипотезы: простая основная Н0: и сложная конкурирующая Н1: , где - известная функция распределения. Иными словами, мы хотим проверить, согласуются ли исходные данные с нашим гипотетическим предположением относительно теоретического закона распределения или нет. Поэтому критерий для проверки гипотез Н0 и Н1 называются критериями согласия.

Существуют различные критерии согласия, например, критерий согласия Пирсона , критерий согласия Колмогорова. Приведем один из наиболее часто используемых критериев согласия – критерий согласия Пирсона .

Предположим, что проверяется основная гипотеза Н0: исследуемый признак Х имеет распределение , против конкурирующей противоположной гипотезы при уровне значимости . Здесь - функция распределения исследуемого признака Х, известная с точностью до параметров . В силу взаимно однозначного соответствия между функцией распределения и рядом (плотностью) распределения нулевая гипотеза Н0 может быть сформулирована также в терминах ряда (плотности) распределения. Если основная гипотеза простая, т.е. гипотетическое распределение исследуемого признака основной гипотезой определяется однозначно, то количество параметров распределений, требуемых оценки по выборке, m = 0.

Проверка нулевой гипотезы Н0 против альтернативной при уровне значимости проводится по следующей схеме:

  1. Исходя из выборочных данных, находят оценки неизвестных параметров распределения . Найденные оценки используются в дальнейшем вместо неизвестных параметров распределения.

  2. Вся область изменения признака Х разбивается на k непересекающихся интервалов при i = 1, 2, …, k. Если признак Х принимает значения на всей вещественной оси, то полагаем и правый конец . Если признак Х принимает только положительные значения, то полагаем и правый конец . Подсчитываются далее величины - количество выборочных данных, попавших в i-тый интервал при i = 1, 2, …, k. Интервалы выбирают обычно таким образом, чтобы все были не меньше . Очевидно, − объем выборки.

  1. Находятся теоретические вероятности того, что исследуемый признак Х примет какое–либо значение из промежутка :

, i = 1, 2, …, k.

Если исследуемый признак дискретный, то

,

где суммирование ведется по всем значениям индекса r, для которых , i = 1, 2, …, k.

Очевидно, должно выполняться равенство .

4. Вычисляется мера расхождения между теоретическим и эмпирическим распределением:

,

где - эмпирические частоты признака Х, - теоретические частоты, - вероятности, рассчитанные по предполагаемому теоретическому распределению.

  1. Для выбранного уровня значимости по таблице распределения находят критическое значение при числе степеней свободы , где k – число выборочных групп, m - число параметров теоретического распределения, определяемого по опытным данным.

  2. Производится сравнение вычисленного по выборке значения с табличным значением . Если значения < , то считается, что выборочные данные согласуются с нулевой гипотезой Н0. В противном случае нулевая гипотеза Н0 отвергается, она опровергается имеющимися данными в пользу альтернативной.

Задача. Получено следующее распределение 100 рабочих цеха по выработке в отчетном году (в % к предыдущему году):

Выработка в отчетной году (в % к предыдущему году)

Количество рабочих

6

20

45

24

5

100

С помощью критерия согласия Пирсона проверить гипотезу о том, что выработка на одного рабочего в отчетном году (в % к предыдущему) подчиняется нормальному закону распределения. Уровень значимости критерия принять равным 0,05.

Решение. Нулевая гипотеза Н0 состоит в том, что исследуемый признак Х – выработка на одного рабочего в отчетном году (в % к предыдущему) подчиняется нормальному закону распределения.

В качестве оценок двух неизвестных параметров а и будут фигурировать соответствующие выборочные характеристики: и . Можно показать, что . Исследуемый признак принимает значения на всей вещественной оси (в принципе, но не в реальности!). Поэтому интервалы разбиения таковы, что левый конец и правый конец .

Теоретические вероятности находятся по формуле

, i = 1, 2, … , k.

Необходимые для этих вычислений значения функции взяты из таблицы Приложения. Дальнейшие выкладки сведены ниже в таблицу. При этом объединены два последних интервала группировки ввиду их малочисленности.

п/п

Интервал группировки

Частота

Функция

Веро-ятность

1

6

−∞

−0,5

0,053

5,3

0,092

2

20

−1,62

−0,447

0,238

23,8

0,636

3

45

−0,55

−0,209

0,404

40,4

0,524

4

24

0,51

0,195

0,248

24,8

0,026

5

5

1,57

0,442

0,057

5,7

0,11

7

+ ∞

0,5

100

1,00

100

Вычисленное статистическое значение критерия . По количеству интервалов группировки k = 5, числу параметров нормального распределения найдем число степеней свободы 5 – 3 = 2. Для заданного уровня значимости критерия и числа степеней свободы, равного 2, находим . Так как , то нулевая гипотеза о нормальности распределения величины выработки рабочего согласуется с имеющимися данными.