2.2.2. Определения вероятности событий
«В обыденной жизни под вероятностью некоторого события понимают степень уверенности, что это событие осуществится. При некоторых предположениях относительно характера рассматриваемых событий вероятности их наступления могут быть выражены действительными числами»8.
Под вероятностью лингвистического события понимают меру возможности появления этого события. В языкознании интерес представляет классическое и статистическое определение вероятности.
Классическое определение вероятности
1) Пусть в некотором опыте может произойти n равновозможных несовместных событий (исходов), причём одно из них обязательно наступит.
2) Интересующее нас событие А наступит, если наступит одно из m (m ≤ n) равновозможных несовместных событий.
Тогда вероятность события А равна , что записывается в виде - формула классической вероятности события А,
m – число исходов, благоприятных событию А,
n – число всего возможных исходов (равновозможных несовместных событий).
Свойства вероятности:
Исходя из классического определения вероятности, осуществляется, например, вероятностная обработка частотных словарей отдельных произведений или всего творчества писателя. В этих случаях все словоупотребления, составляющие текст, образуют полную группу равновозможных и попарно несовместных событий.
Пример:
Текст «Капитанской дочки» А.С.Пушкина состоит из 29343 словоупотреблений. Формы слова «быть» встречаются здесь 430 раз. Найти вероятность появления в тексте «Капитанской дочки» форм слова «быть».9
Статистическое определение вероятности
Пусть производится n одинаковых независимых испытаний. Событие А появилось в них m раз.
Тогда отношение - относительная частота события А.
При увеличении количества испытаний n, относительная частота группируется около числа p (сходится по вероятности к р).
Число p называется статистической вероятностью события А
Эта закономерность носит название устойчивости частот. Устойчивость частот наблюдается при многократном проведении большого числа одного и того же опыта.
Например, относительная частота глагола «быть» в русской художественной прозе при увеличении объёма исследуемого материала приобретает определённую устойчивость, приближаясь к числу 0,01
n (объём выборки) | m (частота глагола «быть») | Относительная частота | n (объём выборки) | m (частота глагола «быть») | Относительная частота |
10 | 0 | 0,000 | 6000 | 57 | 0,010 |
100 | 3 | 0,030 | 7000 | 71 | 0,010 |
1000 | 15 | 0,015 | 8000 | 74 | 0,009 |
2000 | 17 | 0,008 | 9000 | 88 | 0,010 |
3000 | 31 | 0,010 | 10000 | 95 | 0,010 |
4000 | 33 | 0,008 | 15000 | 153 | 0,010 |
5000 | 47 | 0,009 | 40000 | 4186 | 0,011 |
Таблица 1. Относительная частота глагола «быть»
в произведениях Пушкина, Тургенева, Бунина.10
Я. Бернулли в 1713 году доказал теорему, которая носит название «закона больших чисел в форме Бернулли» и объясняет близость относительной частоты к числу р, которое и является истинной вероятностью события А:
Каково бы ни было число ,
где р - вероятность события А в каждом отдельном испытании. Говорят, что относительная частота сходится по вероятности к вероятности этого события:
В лингвистике часто за приближённое численное значение статистической вероятности принимается при большом количестве испытаний либо сама относительная частота события А, либо некоторое число, близкое к этой относительной частоте (например, среднее арифметическое относительных частот, полученных из нескольких, достаточно больших серий испытаний). Этот подход имеет практическое значение для прикладных лингвистических исследований, например, при составлении частотных словарей.
Пример. Исследуется частотность употребления частей речи в прозе К. Федина. Взято 10 однородных фрагментов по 500 знаменательных слов каждая. Получены следующие частоты имён существительных: 182, 187, 218, 173, 158, 201, 222, 233, 213, 194. Так как количество испытаний велико (5000 слов), за приближённое значение статистической вероятности р можно взять среднюю частоту появления существительного:
Ответ: статистическая вероятность появления существительного в прозе К. Федина приблизительно равна 0,4.
Лекция 3
Основные теоремы теории вероятностей случайных событий.
- Часть1. Тематический план дисциплины
- Часть 2. Конспекты лекций 8
- Часть 3. Вопросы и задания для практических работ. 79
- Часть 4. Задания для самостоятельной работы 92
- Часть 5. Лабораторные работы 97
- Часть1. Тематический план дисциплины «Основы математической обработки информации»
- Часть 2. Конспекты лекций
- 1.1. Исторические периоды развития математики.
- 1.2. Основы теории множеств
- 1.2.1. Начальные понятия теории множеств.
- 2.1.3. Основные понятия комбинаторики
- 2) Перестановка из n элементов – это размещение из n элементов по n.
- 2.2. Начальные понятия теории вероятностей
- 2.2.2. Определения вероятности событий
- 3.1. Действия над событиями
- 3.2. Вероятность суммы событий
- 3.3. Вероятность произведения событий.
- 3.4. Вычисление вероятности цепочек языковых элементов.
- 3.5. Формула полной вероятности. Формула Байеса.
- 1 H2) Формула полной вероятности.
- 3.6. Теорема Бернулли
- 3.7. Вероятностное моделирование порождения текста.
- 3.8. Предельные теоремы в схеме Бернулли
- 4.1. Случайная величина (св). Начальные понятия.
- 4.2. Функция распределения св (интегральная функция распределения) f(X)
- 4.3. Функция плотности вероятности нсв f(X)
- 4.4. Числовые характеристики св
- 4.5. Законы распределения случайных величин.
- 1) Биномиальный закон распределения.
- 2) Закон Пуассона
- 3) Нормальное распределение (закон Гаусса)
- 6. Вероятность попадания нсв х в заданный промежуток
- 7. Логнормальное распределение
- 5.1. Система двух случайных величин (двумерная св) (1 час)
- 5.1.1. Начальные понятия.
- 5.1.2. Операции над независимыми случайными величинами
- 5.1.3. Числовые характеристики системы двух св
- 5.2. Предельные теоремы теории вероятностей: Закон больших чисел, Центральная предельная теорема и их значение для лингвистического эксперимента.(1 час)
- 5.2.1. Теорема Чебышева для среднего арифметического случайных величин.
- 6.1. Предмет математической статистики. Генеральная и выборочная совокупность.
- 6.2. Статистическое распределение выборки и его графическое изображение
- 6.2.1. Дискретный статистический ряд
- 6.2.2. Интервальный статистический ряд
- 6.3. Числовые характеристики статистического распределения
- Лекция 7. Элементы теории статистических оценок и проверки гипотез.
- 7.1 Статистические оценки параметров распределения и их свойства. Оценка параметров генеральной совокупности по выборке
- 7.1.1. Свойства статистических оценок:
- 7.1.2. Точечные оценки математического ожидания, дисперсии и вероятности.
- 7.1.3. Интервальное оценивание параметров.
- 7.1.4. Доверительные интервалы для параметров нормального распределения
- 7.1.5. Число степеней свободы
- 7.1.7. Определение минимально достаточного объёма выборки в грамматических, фонетико-фонологических и лексикологических исследованиях.
- 7.2. Проверка статистических гипотез. Исследование вероятностных свойств языка и статистики текста с помощью метода гипотез.
- 7.2. Проверка статистических гипотез.
- 7.2.1. Статистические гипотезы.
- 7.2.2. Статистический критерий
- 4.2.3. Принцип проверки статистических гипотез
- 7.2.4. Ошибки при проверке гипотез
- 7.2.5. Проверка лингвистических гипотез с помощью параметрических критериев.
- 7.2.6. Проверка гипотез с помощью непараметрических критериев.
- Часть 3. Вопросы и задания для практических работ.
- I. Элементы комбинаторики.
- Часть 4. Задания для самостоятельной работы
- 1. Графический способ.
- 2. Критерий асимметрии и эксцесса.
- 3. Критерий Колмогорова-Смирнова.
- 4. Критерий Пирсона
- Приложение 1. Значения интегральной функции Лапласа
- Приложение 2. Критические значения ( распределение Пирсона)