logo
Основы математической обработки информации / Пособие для фф

2.2.2. Определения вероятности событий

«В обыденной жизни под вероятностью некоторого события понимают степень уверенности, что это событие осуществится. При некоторых предположениях относительно характера рассматриваемых событий вероятности их наступления могут быть выражены действительными числами»8.

Под вероятностью лингвистического события понимают меру возможности появления этого события. В языкознании интерес представляет классическое и статистическое определение вероятности.

Классическое определение вероятности

1) Пусть в некотором опыте может произойти n равновозможных несовместных событий (исходов), причём одно из них обязательно наступит.

2) Интересующее нас событие А наступит, если наступит одно из m (m n) равновозможных несовместных событий.

Тогда вероятность события А равна , что записывается в виде - формула классической вероятности события А,

mчисло исходов, благоприятных событию А,

nчисло всего возможных исходов (равновозможных несовместных событий).

Свойства вероятности:

Исходя из классического определения вероятности, осуществляется, например, вероятностная обработка частотных словарей отдельных произведений или всего творчества писателя. В этих случаях все словоупотребления, составляющие текст, образуют полную группу равновозможных и попарно несовместных событий.

Пример:

Текст «Капитанской дочки» А.С.Пушкина состоит из 29343 словоупотреблений. Формы слова «быть» встречаются здесь 430 раз. Найти вероятность появления в тексте «Капитанской дочки» форм слова «быть».9

Статистическое определение вероятности

Пусть производится n одинаковых независимых испытаний. Событие А появилось в них m раз.

Тогда отношение - относительная частота события А.

При увеличении количества испытаний n, относительная частота группируется около числа p (сходится по вероятности к р).

Число p называется статистической вероятностью события А

Эта закономерность носит название устойчивости частот. Устойчивость частот наблюдается при многократном проведении большого числа одного и того же опыта.

Например, относительная частота глагола «быть» в русской художественной прозе при увеличении объёма исследуемого материала приобретает определённую устойчивость, приближаясь к числу 0,01

n (объём

выборки)

m (частота

глагола «быть»)

Относительная

частота

n (объём

выборки)

m (частота

глагола «быть»)

Относительная

частота

10

0

0,000

6000

57

0,010

100

3

0,030

7000

71

0,010

1000

15

0,015

8000

74

0,009

2000

17

0,008

9000

88

0,010

3000

31

0,010

10000

95

0,010

4000

33

0,008

15000

153

0,010

5000

47

0,009

40000

4186

0,011


Таблица 1. Относительная частота глагола «быть»

в произведениях Пушкина, Тургенева, Бунина.10

Я. Бернулли в 1713 году доказал теорему, которая носит название «закона больших чисел в форме Бернулли» и объясняет близость относительной частоты к числу р, которое и является истинной вероятностью события А:

Каково бы ни было число ,

где р - вероятность события А в каждом отдельном испытании. Говорят, что относительная частота сходится по вероятности к вероятности этого события:

В лингвистике часто за приближённое численное значение статистической вероятности принимается при большом количестве испытаний либо сама относительная частота события А, либо некоторое число, близкое к этой относительной частоте (например, среднее арифметическое относительных частот, полученных из нескольких, достаточно больших серий испытаний). Этот подход имеет практическое значение для прикладных лингвистических исследований, например, при составлении частотных словарей.

Пример. Исследуется частотность употребления частей речи в прозе К. Федина. Взято 10 однородных фрагментов по 500 знаменательных слов каждая. Получены следующие частоты имён существительных: 182, 187, 218, 173, 158, 201, 222, 233, 213, 194. Так как количество испытаний велико (5000 слов), за приближённое значение статистической вероятности р можно взять среднюю частоту появления существительного:

Ответ: статистическая вероятность появления существительного в прозе К. Федина приблизительно равна 0,4.

Лекция 3

Основные теоремы теории вероятностей случайных событий.