5.2.1. Теорема Чебышева для среднего арифметического случайных величин.
Пусть даны попарно независимые СВ , имеющие конечные математические ожидания и конечные дисперсии, ограниченные одной и той же постоянной с, то как бы ни мало было постоянное положительное число ɛ, с вероятностью, сколь угодно близкой к единице можно утверждать, что отклонение средней арифметической этих n величин от средней арифметической их математических ожиданий не превосходит по абсолютной величине заданного числа ɛ, если число n достаточно велико.
Говорят, что среднее арифметическое СВ сходится по вероятности к среднему арифметическому их математических ожиданий:
Доказательство. Применяя к СВ неравенство Чебышева (принимаем без доказательства), получаем
Переходя к пределу при n→∞ и учитывая, что вероятность любого события не превышает 1, получаем
Следствие1. Если все независимы и одинаково распределены: , то для любого ɛ>0
Среднее арифметическое случайных величин сходится по вероятности к их математическому ожиданию а.
Следствие 1 обосновывает «принцип среднего арифметического СВ», который часто используется на практике. Пусть произведено n независимых измерений некоторой величины , истинное значение которой а неизвестно. Согласно следствию 1, в качестве приближённого значения величины а можно взять среднее арифметическое результатов измерений: . Равенство тем точнее, чем больше n.14
На описанных свойствах средней арифметической и относительной частоты основан широко применяющийся в лингво-статистике выборочный метод (по сравнительно небольшой случайной выборке текстов судят о целой разновидности языка). Сходимость средних арифметических частот, полученных по частичным выборкам, к математическим ожиданиям слов (или словосочетаний) при достаточном числе выборок позволяет рассматривать частотные словари в качестве моделей вероятностного распределения слов и словосочетаний в норме данного подъязыка или стиля.
Применённое ранее неравенство Чебышева справедливо для любых СВ, в частности для СВ Х = m, имеющих биномиальное распределение, где М(Х)=a=np и D(X)=npq. В этом случае оно имеет вид: .
Для СВ - частоте события А в n независимых испытаниях, неравенство Чебышева имеет вид:
(здесь ).
5.2.2. Теорема Бернулли (о которой говорили в лекции №2) является первой (1713 г) и наиболее простой формой закона больших чисел, является частным случаем теоремы Чебышева.
Теорема Бернулли теоретически обосновывает возможность приближённого вычисления вероятности события с помощью его относительной частоты.
Пример. Установлено, что вероятность появления существительного в румынских текстах по радиоэлектронике равна 0,34, а допустимое абсолютное отклонение относительной частоты от вероятности р равно 0,03. Определим тот наименьший объём исследуемого текста, при котором заданные условия выполнялись бы с вероятностью 0,9545.
Здесь воспользуемся неравенством Чебышева для биномиально распределённой случайной величины X-«относительная частота появлений существительного в тексте»:
где p=0,34; =0,03;
=0, 9545. Отсюда n=5473.
Ответ: Необходимый текст для выполнения заданных условий с вероятностью 0,9545 должен содержать не меньше, чем 5473 словоупотреблений.
Использование ЗБЧ связано с обследованием слишком больших текстовых выборок, объёмы которых превосходят реальные возможности лингво-статистического исследования.
ЦПТ Ляпунова
Центральная предельная теорема ЦПТ решает проблему нахождения точности, надёжности оценки, доверительного интервала, используя при этом меньшее число испытаний, чем этого требует ЗБЧ, устанавливает условия, при которых закон распределения суммы большого числа случайных величин неограниченно приближается к нормальному.
Пусть СВ независимы и одинаково распределены, , Тогда функция распределения центрированной и нормированной суммы этих СВ стремится при n→∞ к функции распределения стандартной нормальной СВ.
Это означает, что приближённо распределена по нормальному закону: . Говорят, что при n→∞ СВ асимптотически нормальна.
(СВ называется центрированной и нормированной или стандартной, если М(Х)=0, D(X)=1)
Для того, чтобы теорема Ляпунова выполнялась (утверждение о нормальном распределении для средних имело место) достаточно выполнение условий, смысл которых заключается в том, что
ни одна из СВ, образующих среднюю, не была в ней преобладающей. В противном случае распределение средней определяется законом распределения этих преобладающих СВ.
Пример этого явления в лингвистике – поведение ключевых (или доминантных) слов и словосочетаний текста, т.е. таких слов, которые передают основные понятия, рассматривающиеся в данном сообщении. Преобладающим фактором, влияющим на статистику доминантных единиц текста, является ситуация, отражаемая в содержании текста. Лингвистические, индивидуально стилевые и прочие факторы подавляются ситуацией. Так как появление тех или иных ситуаций не подчиняется нормальному закону, то этому закону не подчиняется и распределение доминантных слов. Напротив, служебные слова, многие грамматические формы, фонемы и буквы, поведение которых определяется суммой большого числа случайных воздействий без преобладания в них семантики текста, распределены по закону, близкому к нормальному. Выделение в тексте слов, распределение которых не является нормальным, лежит в основе эффекта статистического опознания терминологических единиц.
Лекция №6 Элементы математической статистики
- Часть1. Тематический план дисциплины
- Часть 2. Конспекты лекций 8
- Часть 3. Вопросы и задания для практических работ. 79
- Часть 4. Задания для самостоятельной работы 92
- Часть 5. Лабораторные работы 97
- Часть1. Тематический план дисциплины «Основы математической обработки информации»
- Часть 2. Конспекты лекций
- 1.1. Исторические периоды развития математики.
- 1.2. Основы теории множеств
- 1.2.1. Начальные понятия теории множеств.
- 2.1.3. Основные понятия комбинаторики
- 2) Перестановка из n элементов – это размещение из n элементов по n.
- 2.2. Начальные понятия теории вероятностей
- 2.2.2. Определения вероятности событий
- 3.1. Действия над событиями
- 3.2. Вероятность суммы событий
- 3.3. Вероятность произведения событий.
- 3.4. Вычисление вероятности цепочек языковых элементов.
- 3.5. Формула полной вероятности. Формула Байеса.
- 1 H2) Формула полной вероятности.
- 3.6. Теорема Бернулли
- 3.7. Вероятностное моделирование порождения текста.
- 3.8. Предельные теоремы в схеме Бернулли
- 4.1. Случайная величина (св). Начальные понятия.
- 4.2. Функция распределения св (интегральная функция распределения) f(X)
- 4.3. Функция плотности вероятности нсв f(X)
- 4.4. Числовые характеристики св
- 4.5. Законы распределения случайных величин.
- 1) Биномиальный закон распределения.
- 2) Закон Пуассона
- 3) Нормальное распределение (закон Гаусса)
- 6. Вероятность попадания нсв х в заданный промежуток
- 7. Логнормальное распределение
- 5.1. Система двух случайных величин (двумерная св) (1 час)
- 5.1.1. Начальные понятия.
- 5.1.2. Операции над независимыми случайными величинами
- 5.1.3. Числовые характеристики системы двух св
- 5.2. Предельные теоремы теории вероятностей: Закон больших чисел, Центральная предельная теорема и их значение для лингвистического эксперимента.(1 час)
- 5.2.1. Теорема Чебышева для среднего арифметического случайных величин.
- 6.1. Предмет математической статистики. Генеральная и выборочная совокупность.
- 6.2. Статистическое распределение выборки и его графическое изображение
- 6.2.1. Дискретный статистический ряд
- 6.2.2. Интервальный статистический ряд
- 6.3. Числовые характеристики статистического распределения
- Лекция 7. Элементы теории статистических оценок и проверки гипотез.
- 7.1 Статистические оценки параметров распределения и их свойства. Оценка параметров генеральной совокупности по выборке
- 7.1.1. Свойства статистических оценок:
- 7.1.2. Точечные оценки математического ожидания, дисперсии и вероятности.
- 7.1.3. Интервальное оценивание параметров.
- 7.1.4. Доверительные интервалы для параметров нормального распределения
- 7.1.5. Число степеней свободы
- 7.1.7. Определение минимально достаточного объёма выборки в грамматических, фонетико-фонологических и лексикологических исследованиях.
- 7.2. Проверка статистических гипотез. Исследование вероятностных свойств языка и статистики текста с помощью метода гипотез.
- 7.2. Проверка статистических гипотез.
- 7.2.1. Статистические гипотезы.
- 7.2.2. Статистический критерий
- 4.2.3. Принцип проверки статистических гипотез
- 7.2.4. Ошибки при проверке гипотез
- 7.2.5. Проверка лингвистических гипотез с помощью параметрических критериев.
- 7.2.6. Проверка гипотез с помощью непараметрических критериев.
- Часть 3. Вопросы и задания для практических работ.
- I. Элементы комбинаторики.
- Часть 4. Задания для самостоятельной работы
- 1. Графический способ.
- 2. Критерий асимметрии и эксцесса.
- 3. Критерий Колмогорова-Смирнова.
- 4. Критерий Пирсона
- Приложение 1. Значения интегральной функции Лапласа
- Приложение 2. Критические значения ( распределение Пирсона)