logo search
Основы математической обработки информации / Пособие для фф

7.2.5. Проверка лингвистических гипотез с помощью параметрических критериев.

При рассмотрении лексикологических, фонологических проблем, связанных с сопоставлением различных языков, подъязыков и функциональных стилей, приходится сравнивать частоты употребления лингвистических единиц в разных стилях, подъязыках, художественных произведениях. Эти сопоставления осуществляются путём проверки гипотезы о существенности расхождения между соответствующими параметрами распределений интересующей исследователя лингвистической единицы.

Пример. Может ли средняя длина словоформы быть статистической характеристикой стиля и языка? Доказано, что распределение средних длин словоформ близко к нормальному, т.е. расхождения между средними длинами словоформ языков мира не является существенным. Но значит ли это, что такая несущетвеность расхождения будет наблюдаться и при сравнении средних длин словоформ одного функционального стиля?

Рассмотрим расхождения между средней длиной словоформы в научно-технической и деловой речи 6 славянских языков и средней длиной словоформы в указанных стилях всех языков мира ().

Сформируем гипотезы H0: ; Н1:

Для проверки гипотез можно использовать t-критерий Стьюдента или Z-критерий нормального распределения.

t-критерий Стьюдента. Чаще всего при лингвистических исследованиях величина σ неизвестна, поэтому в качестве статистической характеристики выбирается величина , имеющая распределение Стьюдента с v =n-1 степенями свободы. Примем уровень значимости α=0,05

а) Найдём по таблице Стьюдента , где ν = 6-1=5, α=0,05, 2,57;

б) Вычислим по формуле статистическое значение критерия, где =6,13; =7, S=0,43;

; =- 4,95;

в) Так как , то гипотеза H0 отвергается и принимается альтернативная гипотеза

Н1:

Z-критерий. Пусть в данной задаче величина σ известна: σ=S=0,43.

а) Тогда определим при α=0,05 по таблице Z-распределения: Zα=1,96

б) Найдём статистическое значение Z-критерия ; = - 4,95;

в) Сравним Zα и Z. Так как , то гипотеза Н0 отвергается, принимается гипотеза Н1.

Следовательно, расхождения между и средней длиной словоформ во всех языках мира являются существенными.

Это связано с тем, что славянские языки используют флективно-аналитическую технику оформления именных форм, которые составляют значительную часть деловых и научно- технических текстов во всех языках. Такую технику отличает незначительное удлинение основы.