Основы математической обработки информации / Пособие для фф

5.1. Система двух случайных величин (двумерная св) (1 час)

Реальные распределения случайных лингвистических единиц характеризуются обычно правосторонней асимметрией, и не очень хорошо аппроксимируются нормальным законом. В связи с этим делаются попытки моделировать эти эмпирические распределения с помощью распределений Кэпптейна, Шалье, выравнивающих кривых Пирсона и Бордачёва. Такое моделирование должно опираться на лингвистическую сущность случайного явления или процесса, приводящему к определённому закону распределения.

С этой точки зрения наибольший интерес представляет логарифмически нормальное (логнормальное) распределение. Основная идея – в следующем. Значение случайной лингвистической величины Х обычно складывается из независимых внутриязыковых и экстралингвистических величин. Чаще всего эти значения являются результатом действия ряда причин. В этом случае нормально распределена не сама СВХ, а её логарифм.

Функция плотности вероятности логнормального распределения имеет вид

, где _.

Функция плотности вероятности логнормального распределения характеризуется островершинностью, и имеет правостороннюю (положительную) скошенность.

Г. Хердан ( «Квантитативная лингвистика», Лондон, 1964г ) использует логнормальное распределение для математической экспликации вероятностного построения словаря языка и его реализации в тексте. По его мнению, логнормальность словаря и текста отражает присущий естественному языку принцип оптимального кодирования информации.

Иногда для решения лингвистической задачи необязательно находить вероятности появления данного события 0,1,2,…N раз, а достаточно указать наивероятнейшее число появления этого события х₀, которое определяется по формуле

Лекция №5

Содержание