7.2.5. Проверка лингвистических гипотез с помощью параметрических критериев.
При рассмотрении лексикологических, фонологических проблем, связанных с сопоставлением различных языков, подъязыков и функциональных стилей, приходится сравнивать частоты употребления лингвистических единиц в разных стилях, подъязыках, художественных произведениях. Эти сопоставления осуществляются путём проверки гипотезы о существенности расхождения между соответствующими параметрами распределений интересующей исследователя лингвистической единицы.
Пример. Может ли средняя длина словоформы быть статистической характеристикой стиля и языка? Доказано, что распределение средних длин словоформ близко к нормальному, т.е. расхождения между средними длинами словоформ языков мира не является существенным. Но значит ли это, что такая несущетвеность расхождения будет наблюдаться и при сравнении средних длин словоформ одного функционального стиля?
Рассмотрим расхождения между средней длиной словоформы в научно-технической и деловой речи 6 славянских языков и средней длиной словоформы в указанных стилях всех языков мира ().
Сформируем гипотезы H0: ; Н1:
Для проверки гипотез можно использовать t-критерий Стьюдента или Z-критерий нормального распределения.
t-критерий Стьюдента. Чаще всего при лингвистических исследованиях величина σ неизвестна, поэтому в качестве статистической характеристики выбирается величина , имеющая распределение Стьюдента с v =n-1 степенями свободы. Примем уровень значимости α=0,05
а) Найдём по таблице Стьюдента , где ν = 6-1=5, α=0,05, 2,57;
б) Вычислим по формуле статистическое значение критерия, где =6,13; =7, S=0,43;
; =- 4,95;
в) Так как , то гипотеза H0 отвергается и принимается альтернативная гипотеза
Н1:
Z-критерий. Пусть в данной задаче величина σ известна: σ=S=0,43.
а) Тогда определим при α=0,05 по таблице Z-распределения: Zα=1,96
б) Найдём статистическое значение Z-критерия ; = - 4,95;
в) Сравним Zα и Z. Так как , то гипотеза Н0 отвергается, принимается гипотеза Н1.
Следовательно, расхождения между и средней длиной словоформ во всех языках мира являются существенными.
Это связано с тем, что славянские языки используют флективно-аналитическую технику оформления именных форм, которые составляют значительную часть деловых и научно- технических текстов во всех языках. Такую технику отличает незначительное удлинение основы.
- Часть1. Тематический план дисциплины
- Часть 2. Конспекты лекций 8
- Часть 3. Вопросы и задания для практических работ. 79
- Часть 4. Задания для самостоятельной работы 92
- Часть 5. Лабораторные работы 97
- Часть1. Тематический план дисциплины «Основы математической обработки информации»
- Часть 2. Конспекты лекций
- 1.1. Исторические периоды развития математики.
- 1.2. Основы теории множеств
- 1.2.1. Начальные понятия теории множеств.
- 2.1.3. Основные понятия комбинаторики
- 2) Перестановка из n элементов – это размещение из n элементов по n.
- 2.2. Начальные понятия теории вероятностей
- 2.2.2. Определения вероятности событий
- 3.1. Действия над событиями
- 3.2. Вероятность суммы событий
- 3.3. Вероятность произведения событий.
- 3.4. Вычисление вероятности цепочек языковых элементов.
- 3.5. Формула полной вероятности. Формула Байеса.
- 1 H2) Формула полной вероятности.
- 3.6. Теорема Бернулли
- 3.7. Вероятностное моделирование порождения текста.
- 3.8. Предельные теоремы в схеме Бернулли
- 4.1. Случайная величина (св). Начальные понятия.
- 4.2. Функция распределения св (интегральная функция распределения) f(X)
- 4.3. Функция плотности вероятности нсв f(X)
- 4.4. Числовые характеристики св
- 4.5. Законы распределения случайных величин.
- 1) Биномиальный закон распределения.
- 2) Закон Пуассона
- 3) Нормальное распределение (закон Гаусса)
- 6. Вероятность попадания нсв х в заданный промежуток
- 7. Логнормальное распределение
- 5.1. Система двух случайных величин (двумерная св) (1 час)
- 5.1.1. Начальные понятия.
- 5.1.2. Операции над независимыми случайными величинами
- 5.1.3. Числовые характеристики системы двух св
- 5.2. Предельные теоремы теории вероятностей: Закон больших чисел, Центральная предельная теорема и их значение для лингвистического эксперимента.(1 час)
- 5.2.1. Теорема Чебышева для среднего арифметического случайных величин.
- 6.1. Предмет математической статистики. Генеральная и выборочная совокупность.
- 6.2. Статистическое распределение выборки и его графическое изображение
- 6.2.1. Дискретный статистический ряд
- 6.2.2. Интервальный статистический ряд
- 6.3. Числовые характеристики статистического распределения
- Лекция 7. Элементы теории статистических оценок и проверки гипотез.
- 7.1 Статистические оценки параметров распределения и их свойства. Оценка параметров генеральной совокупности по выборке
- 7.1.1. Свойства статистических оценок:
- 7.1.2. Точечные оценки математического ожидания, дисперсии и вероятности.
- 7.1.3. Интервальное оценивание параметров.
- 7.1.4. Доверительные интервалы для параметров нормального распределения
- 7.1.5. Число степеней свободы
- 7.1.7. Определение минимально достаточного объёма выборки в грамматических, фонетико-фонологических и лексикологических исследованиях.
- 7.2. Проверка статистических гипотез. Исследование вероятностных свойств языка и статистики текста с помощью метода гипотез.
- 7.2. Проверка статистических гипотез.
- 7.2.1. Статистические гипотезы.
- 7.2.2. Статистический критерий
- 4.2.3. Принцип проверки статистических гипотез
- 7.2.4. Ошибки при проверке гипотез
- 7.2.5. Проверка лингвистических гипотез с помощью параметрических критериев.
- 7.2.6. Проверка гипотез с помощью непараметрических критериев.
- Часть 3. Вопросы и задания для практических работ.
- I. Элементы комбинаторики.
- Часть 4. Задания для самостоятельной работы
- 1. Графический способ.
- 2. Критерий асимметрии и эксцесса.
- 3. Критерий Колмогорова-Смирнова.
- 4. Критерий Пирсона
- Приложение 1. Значения интегральной функции Лапласа
- Приложение 2. Критические значения ( распределение Пирсона)