logo
Основы математической обработки информации / Пособие для фф

3.4. Вычисление вероятности цепочек языковых элементов.

В лингвистике очень редко имеют дело с независимыми событиями, т.к. вероятность появления букв, фонем, слогов, морфем и т.д. зависит от позиций этих лингвистических объектов в слове, словосочетании, предложении. Например, вероятность появления буквы п в начале слова равна 0,207, а после начального я условная вероятность её появление составляет 0,001.

Каждый текст можно представить, как совместное наступление некоторой линейной последовательности лингвистических событий – совместное появление цепочки словоформ, последовательности слогов, цепочек фонем или букв. Определение вероятности появления этих цепочек опирается на теорему умножения вероятностей.

Пример. Определите вероятность появления в русских текстах двухбуквенного сочетания «яn» в начале слова, если вероятность появления буквы я в начале слова равна 0,018, а вероятность появления буквы п после начального я составляет 0,001.