logo
Основы математической обработки информации / Пособие для фф

7.1.4. Доверительные интервалы для параметров нормального распределения

1. Доверительный интервал для неизвестного М(Х)=а при известной дисперсии

Х~N(a;σ); σ – известна;

γ – доверительная вероятность – задана.

- доверительный интервал;

t определяется из равенства ,

где - функция Лапласа (табулирована).

2. Доверительный интервал для неизвестного М(Х)=а при неизвестной дисперсии

Х~N(a;σ); σ – неизвестна; γ – доверительная вероятность. - доверительный интервал,

где S – исправленное среднее квадратическое отклонение;

- определяется по таблице квантилей распределения Стьюдента, α=1- γ – уровень значимости; k=n-1 – число степеней свободы.

3. Доверительный интервал для неизвестного при неизвестном математическом ожидании М(Х).

Х~N(a;σ); a и σ – неизвестны; γ – доверительная вероятность (задана).

доверительный интервал, где

и находятся по таблице , k =n-1 – число степеней свободы.

4. Доверительный интервал для оценки вероятности успеха при большом числе испытаний Бернулли.

Одним из важных вопросов квантитативной лингвистики является выявление объективных статистических признаков для отдельных разновидностей языка (стилей, подъязыков, жанров, авторского стиля). Для этого из каждой разновидности языка как генеральной совокупности извлекают выборки, строят доверительные интервалы для параметров каждой выборки с большой надёжностью. Если доверительные интервалы пересекаются, то данный параметр не может являться различительной характеристикой рассматриваемых стилей. В противном случае, параметр принимается за объективную статистическую характеристику различия стилей и жанров.

Задача 4.17 Была сделана попытка разграничить жанры и стили современного украинского языка с помощью частоты употребления в них глагольных словоформ. Извлечено 250 выборок по 500 словоупотреблений в каждой. Для каждого жанра и стиля была вычислена средняя частота глагольных словоупотреблений и исправленное выборочное среднее квадратическое

отклонение S, а также S(). Результаты показаны в таблице:

Таблица2. Статистические характеристики употребления глаголов

в различных стилях современного украинского языка

Жанры и стили современного украинского литературного языка

Количество

выборок

S

S()

Язык художественной литературы

Драма

Проза

Поэзия

60

90,5

91,2

82,1

15,36

13,45

10,44

1,98

1,73

1,48

Общественно-политическая проза

60

48,0

10,55

1,35

Научно-техническая проза

50

61,7

9,92

1,40

Используя таблицу 2, построить доверительные интервалы для математического ожидания частоты употребления глагольных форм с доверительной вероятностью 0,95 (0,996) для каждого стиля и жанра и сделать вывод о возможности или невозможности обособления данных жанров и стилей с помощью такого статистического параметра, как частота употребления глагольных форм.

Задача 5. В молдавском публицистическом тексте длиной в 200 тыс. словоупотреблений встретилось 31286 глагольных форм. Определить с вероятность 95% доверительные границы вероятности появления во взятом тексте глагольгого словоупотребления.

Решение. Распределение глагольных форм в тексте при большом количестве испытаний можно считать нормальным. Воспользуемся формулой для нахождения доверительного итервала вероятности альтернативного признака А: , где- относительная частота события А,

- абсолютная ошибка;

t определяется из равенства .

.

По таблице значений функции Лапласа находим t=1,96. Тогда доверительный интервал вероятности события А

(0,1564-0,0016; 0,1564+0,0016)

Ответ: вероятность появления глагольного словлупотребления в молдавских публицистических текстах попадает в интервал (0,1548;0,1580) с надёжностью 95%.