logo
Основы математической обработки информации / Пособие для фф

7.2.6. Проверка гипотез с помощью непараметрических критериев.

При решении многих теоретических и прикладных вопросов в различных областях знаний, возникает необходимость рассмотреть характер всего распределения. Эта задача решается путём проверки статистических гипотез о тождестве двух эмпирических распределений или об идентичности эмпирического и теоретического распределения. Для проверки непараметрических гипотез могут применяться различные критерии: критерий - Пирсона, критерий Колмогорова-Смирнова, критерий асимметрии и эксцесса, графический способ, упрощённые критерии (критерий Романовского, числа Вестергарда, вариационная сетка Турбина) и т п.

Критерий Пирсона

Критерий Пирсона наиболее часто употребляемый критерий для проверке гипотезы о законе распределения.

Для проверки нормальности распределения СВ Х (генеральной совокупности) по выборке необходимо выполнить следующее:

  1. Сформировать нулевую H0 (о том, что генеральная совокупность распределена по нормальному закону) и альтернативную H1 гипотезы.

  2. Выбрать уровень значимости ( чаще всего α=0,05).

  3. В полученном предварительно, интервальном статистическом ряде, объединить интервалы, количество наблюдений в которых меньше 5 (необходимым условием применения метода Пирсона является наличие в каждом интервале не менее 5 наблюдений, ni ≥5)

  4. Найти параметры, определяющие нормальный закон распределения (а ; σ). Их оценки, вычисленные по выборке,

  5. Так как нормально распределённая случайная величина определена на (-∞,∞), то заменить крайние интервалы на интервалы вида (-∞; х1) и (хk-1,∞).

  6. Рассчитать вероятность попадания СВ в каждый в каждый из интервалов по формуле .

  7. Для каждого интервала найти произведение npi (теоретическая частота). Полученные результаты занести в таблицу :

хi

ni

npi


  1. Найти (эмпирическое значение критерия Пирсона).

  2. Вычислить число степеней свободы по формуле k=m-r-1 , где m-число интервалов ряда, r- число параметров предполагаемого распределения (для нормального r=2).

  3. По таблице -распределения найти критическую точку .

  4. Сделать вывод о принятии или опровержении гипотезы H0.

(если , то гипотеза H0 принимается, если , то H0- отвергается).

Пример: Можно ли среднюю длину словоупотребления использовать в качестве статистической характеристики для различения языков?

Если вариационный ряд средних длин словоформ близок к нормальному распределению, то средние длины словоформ плотнее группируются вокруг средней, задаваемой возможностями оперативной памяти человека. Отклонение от этой средней в каждом конкретном языке будет рассматриваться как результат случайных воздействий.

Н0: Средние длины словоформ всех языков мира распределены по нормальному закону.

Н1: Распределение средних длин словоформ нельзя считать нормальным.

Решение

В результате проверки гипотезы делается вывод: гипотеза H0 принимается и распределение средних длин словоформ языков мира можно считать нормальным.

Ответ. Средняя длина словоформ не может считаться параметром для различения языков мира.

«Этот статистический результат имеет важные теоретические последствия не только в области теории языка или психолингвистики, но и в плане кибернетической физиологии высшей нервной деятельности, а также инженерной лингвистики. Нормальность распределения длин словоформ может рассматриваться как указание на то, что существует некоторый общечеловеческий эталон, равный центру этого распределения. Величину этого эталона, определяющуюся, вероятно, особенностями строения быстродействующей памяти человека, следует учитывать при расчёте памяти слушающих, переводящих и обучающих автоматов.»18