logo
Основы математической обработки информации / Пособие для фф

4. Критерий Пирсона

Критерий Пирсона наиболее часто употребляемый критерий для проверке гипотезы о законе распределения.

Для проверки нормальности распределения СВ Х-«Число глаголов в фрагменте из текста выбранного автора длиной 100 словоупотреблений» по выборке выполните следующее:

1) Сформулируйте нулевую H0 и альтернативную H1 гипотезы.

2) Выберите уровень значимости α=0,05.

3) В интервальном статистическом ряде, полученном в Л.Р. №1, объедините интервалы, количество наблюдений в которых меньше 5 (необходимым условием применения метода Пирсона является наличие в каждом интервале не менее 5 наблюдений ,

т.е. ni ≥5)

4) Найдите параметры, определяющие нормальный закон распределения (а ; σ). Их оценки, вычисленные по выборке,

5) Так как нормально распределённая случайная величина определена на (-∞,∞), то замените крайние интервалы на интервалы вида (-∞; х1) и (хk-1,∞).

6) Рассчитайте вероятность попадания СВ в каждый в каждый из интервалов по формуле

[xi,xi+1]

ni

npi

7. Для каждого интервала найдите произведение npi (теоретическая частота).

8) Полученные результаты занесите

втаблицу :

8) Найдите

(эмпирическое значение критерия Пирсона).

9) Вычислите число степеней свободы по формуле k=m-r-1 , где m-число интервалов ряда, r- число параметров предполагаемого распределения (для нормального r=2).

10) По таблице -распределения найдите критическую точку .

11) Сделайте вывод о принятии или опровержении нулевой гипотезы H0.

(если , то гипотеза H0 принимается, если , то H0- отвергается).

С использованием программы SPSS:

Анализ > Непараметрические критерии > Хи-квадрат

В открывшемся диалоговом окне переместить Х в раздел `Проверяемые переменные`> OK

В полученном окне вывода получаем значение критерия Пирсона, найденное по выборке.

Сравните полученное значение с критическим и сделайте вывод.

Лабораторная работа №3 (2часа)

Оценка параметров лингвистической случайной величины по выборке.

Цель. Овладеть навыками:

- нахождения точечных оценок параметров распределения генеральной совокупности по выборке;

- нахождения абсолютной и относительной ошибки оценки математического ожидания и дисперсии генеральной совокупности;

- построения доверительных интервалов для математического ожидания и дисперсии нормально распределённой лингвистической величины;

- определения минимально достаточного объёма выборки в лексикологических исследованиях по заданной возможной ошибке.

Задание:

На основе исходных данных и результатов выполнения Л.Р.№1 и Л.Р.№2 …

1) найти несмещённую и состоятельную оценку для математического ожидания М(Х) и дисперсии D(X) случайной величины Х-«количество глаголов в фрагменте из текста выбранного автора длиной 100 словоупотреблений»;

2) определить абсолютную и относительную ошибку измерения М(Х) по выборке.

Абсолютная ошибка (стандартная ошибка среднего) находится по формуле , где k- число выбранных из текста фрагментов, - определяется из таблицы квантилей распределения Стьюдента в зависимости от α – уровня значимости и k-1 - числа степеней свободы, S- исправленное среднее квадратическое отклонение, вычисляется по формуле Относительная ошибка (определяет, какую часть среднего выборочного составляет абсолютная ошибка) находится из равенства .

3) построить 95% доверительный интервал для математического ожидания М(Х) генеральной совокупности и дисперсииD(X) случайной величины Х-«количество глаголов в фрагменте из текста выбранного автора» длиной 100 словоупотреблений» по формуле

4) рассчитать, какое минимальное количество фрагментов (минимальный объём выборки) необходимо выбрать для исследования, чтобы ширина интервала не превышала 2 при уровне значимости 0,05.

Из формулы относительной ошибки частоты можно получить, путём преобразования, формулу для определения k-числа фрагментов: .

Здесь принимаем t=2 (такая величина t даёт достаточную точность при k=10 и более).

С помощью программы SPSS:

Анализ > Описательные статистики >Описательные. В открывшемся диалоговом окне переносим X в окно `Переменные`. Открываем вкладку `Параметры`, в окне `Разброс` ставим флажок в квадратике `Стандартная ошибка среднего` , нажимаем `Продолжить`, ОК.

В полученной таблице показана статистика среднего и его стандартная ошибка. Сравните с полученным вручную значением.

Лабораторная работа №4 (2часа)

Проверка гипотезы о статистической значимости различия средних частот употребления глаголов.

Часто в лингвистическом исследовании необходимо сравнить по определённому признаку тексты двух различных авторов. Разные типы и виды языка и речи лучше характеризовать именно средними частотами лингвистического явления, так как в этом случае усредняется влияние на результат разных факторов. Определяется, какой характер носит расхождение среднего числа появления изучаемого явления языка в выбранных фрагментах из текстов первого и второго автора. Случайно ли оно или существенно, т.е. принадлежат или нет две серии фрагментов к одной и той же статистической совокупности?

Задание. Используя полученные при обработке текстов статистические данные о количестве глагольных форм в произведениях двух различных авторов (желательно современников) и результаты выполнения Л.Р.№1 и Л.Р.№2, проверить гипотезу о статистической значимости различий средних частот употребления глагольных форм в текстах двух авторов.

Так как наши выборки извлекаются из разных генеральных совокупностей, независимых друг от друга, воспользуемся для проверки гипотезы критерием Стьюдента для независимых выборок при неизвестных, но равных дисперсиях.

Обязательным условием применения критерия Стьюдента является принадлежность выборочных распределений к нормальному (проверено в Л.Р. №2) и статистическое равенство дисперсий.

План выполнения работы:

Пусть Х1 - «Число глаголов в текстах 1 автора»,

Х2 -- «Число глаголов в текстах 2 автора»;

причём исправленное сренее квадратическое отклонение у первого автора больше: (S1>S2).

1. Сформулируйте нулевую H0 (об отсутствии существенных различий средних) и альтернативную H1 гипотезы.

2. Докажите статистическое равенство дисперсий, используя критерий Фишера:

, где k1 и k2 – объёмы выборок,

- исправленные выборочные дисперсии

Найдите по таблице критических точек распределения Фишера значение Fp (p=0,05) с k1-1 и k2-1 степенями свободы.

Если F(k1-1;k2-1)< Fp, то различие исправленных выборочных дисперсий статистически не значимо.

3. Найдите статистику критерия Стьюдента tв по формуле: если , где - средние выборочные частоты.

4. Определите число степеней свободы k=

5. Найдите критическое значение tα;k, по таблице квантилей распределения Стьюдента

(здесь α – уровень значимости, обычно α=0,05).

6. Полученное по выборке tв сравнивается с критическим значением tα;k.

Если , то гипотеза H0 принимается, в противном случае принимается гипотеза H1.

Если же дисперсии статистически не равны, или распределение хотя бы одной генеральной совокупности существенно отличается от нормального, то чаще всего применяют наиболее чувствительный аналог критерия Стьюдента для независимых выборок– критерий U-Манна-Уитни.

С помощью программы SPSS:

Анализ > Сравнение средних >Т-критерий для независимых выборок.

В открывшемся диалоговом окне переместить переменные Х1 и Х2 в раздел ”Проверяемые переменные”.

Нажимаем OK

Лабораторная работа №5 (2часа)

Парный корреляционный анализ. Построение модели линейной регрессии лингвистической информации.

Цель: Овладеть умением оценивать величину корреляционной зависимости лингвистических величин, практического построения простой линейной регрессии по экспериментальным данным и проверки её адекватности в пакете анализа данных SPSS.

Задание:

На основе полученных статистических данных о числе существительных и местоимений в выбранных фрагментах проверить гипотезу о статистической зависимости частот появления в русских литературных текстах имён существительных и местоимений.

План выполнения работы :

1) Сформировать нулевую Н0 и альтернативную Н1 гипотезы.

2) Найти выборочный коэффициент корреляции по формуле

Сделать вывод о величине и знаке корреляционной зависимости.

3) Проверить значимость связи: если , то выборочный коэффициент корреляции значимо отличается от нуля, те связь значима с уровнем значимости α

(- критическое значение распределения Стьюдента с n-2 степенями свободы, соответствующее уровню значимости α).

Сделать вывод о значимости корреляционной зависимости.

4) Построить корреляционное поле, т.е. изобразить в координатной плоскости все выборочные точки (получим общую картину взаимной изменчивости случайных величин).

5) Найти и построить уравнения выборочных линий регрессии (уравнения прямых, с помощью которых приближённо можно описать зависимость Y(x) и X(y)) .

Уравнения линий регрессий:

(у по х) ;

( х по у)

Сделать вывод о принятии или опровержении гипотезы Н0.

Для решения задачи в программе SPSS выполнить следующее.

1. Построим корреляционную матрицу для переменных Х (частсущ) и Y (частмест), предназначенную для оценки степени их зависимости. Войти в меню Анализ – корреляции – парные. В открывшемся окне «Парные корреляции» перенести с помощью стрелки переменные Х (частсущ) и Y(частмест) в окно «переменные». По умолчанию в окне «коэффициенты корреляции» отмечен коэффициент Пирсона - нажать ОК. В открывшемся окне вывода получаем квадратную корреляционную матрицу, в верхней строчке которой выведены коэффициенты корреляции, далее – уровень значимости и N – число наблюдений.

2. Для того чтобы наглядно увидеть существующую зависимость переменных, построим график двумерного рассеивания. Откроем меню Графика – устаревшие диалоговые окна – рассеяния/точки – простая диаграмма рассеяния – задать. В окне Диаграммы рассеяния переместить переменную Y(частмест) в окно Ось Y, а переменную Х(частсущ) - в окно Ось Х. Нажать ОК.

3. Построим линии регрессии. Откроем меню Анализ >Регрессия> Подгонка кривых.

В открывшемся диалоговом окне переместим в окно “Зависимые” переменную “Частмест”, а в окно “Независимые” переменные переменную “Частсущ”. В окне “Модели” поставим флажок в квадратике “Линейная” Нажать ОК.

В окне вывода получим точки двумерного рассеяния и линию регрессии Z(Y)

«Одной из закономерностей работы языкового механизма современного русского языка является отрицательное коррелирование имён существительных и местоимений, т. е. увеличение активности одной из этих частей речи за счёт другой».

Б.Н. Головин. Язык и статистика.

Лабораторная работа №6 (2часа)

Однофакторный дисперсионный анализ. Исследование влияния стиля речи на частоту употребления глагольных форм.

Цель: Научиться применять однофакторный дисперсионный анализ для проверки влияния независимой лингвистической СВ (номинативный признак) на зависимую СВ, измеренную в метрической шкале.

Дисперсионный анализ (сокращённое обозначение ANOVA от Analysis Of Variance) – это метод проверки зависимости нормально распределённой случайной величины (результативный признак) от нескольких величин (факторные признаки или факторы).19

ANOVA был разработан Р. Фишером специально для анализа результатов экспериментальных исследований. В зависимости от плана исследования выделяют четыре основных варианта ANOVA: однофакторный, многофакторный, ANOVA с повторными измерениями, многомерный ANOVA.

Однофакторный ANOVA - проверка влияния на результативный признак одного контролирующего фактора, имеющего несколько уровней (градаций).

Математическая идея ANOVA основана на соотнесении межгрупповой и внутригрупповой частей дисперсии (изменчивости) результативного признака. В модели ANOVA внутригрупповая изменчивость рассматривается как обусловленная случайными причинами, а межгрупповая – как обусловленная действием изучаемого фактора на результативный признак. Чем больше отношение межгрупповой изменчивости к внутригрупповой, тем выше факторный эффект: тем больше различаются средние значения, соответствующие разным градациям фактора.

Основные допущения ANOVA:

- нормальное распределение результативного признака (не оказывает большого влияния на результат);

- гомогенность (равенство) дисперсий выборок, соответствующих разным градациям фактора (при равенстве объёмов выборок несущественно);

- независимость выборок, соответствующих разным градациям фактора ( обязательное условие).

За показатель изменчивости берётся сумма квадратов отклонений значений выборки от среднего выборочного (обозначается SS – Sum of Squares)

(totel – общая)

Общегрупповая изменчивость равна сумме внутригрупповой (Within-Group) и межгрупповой (between-group):

Межгрупповая изменчивость – показатель изменчивости между k группами (каждая численностью n объектов) вычисляется по формуле

,

где -среднее значение для группы j, а – общее среднее. Коэффициент детерминации – отношение межгрупповой и общей суммы квадратов, показывает, какая доля общей дисперсии результативного признака обусловлена влиянием фактора.

Внутригрупповая сумма квадратов - показатель случайной изменчивости (внутри групп)

Число степеней свободы

для общей суммы квадратов : ;

для межгрупповой суммы квадратов :;

для внутригрупповой суммы квадратов : .

Средние суммы квадратов

- межгрупповой средний квадрат

- внутригрупповой средний квадрат

Основным показателем ANOVA является F-отношение – эмпирическое значение критерия Фишера:

;

При вычислении «вручную» для вычисления р–уровня значимости применяются таблицы критических значений F- распределения для направленных альтернатив (односторонний критерий).

Для выполнения работы студенты проводят предварительную подготовку: выбирают по 5 фрагментов в 100 словоупотреблений различных стилей речи: художественного (из художественного повествования автора в литературном произведении), публицистического (из газетной статьи) и научного (из научной статьи). Подсчитывают количество глагольных форм (Y) в каждом фрагменте. Данные оформляются в виде таблицы:

1-художественный стиль

2-публицистический стиль

3-научный стиль

Y

Y

Y

1

1

1

2

2

2

3

3

3

4

4

4

5

5

5

Таблица 1

Результативный признак Y – «число употребления глагольных форм»; группирующий признак (фактор), имеющий три уровня (градации) – «стиль речи».

Необходимо проверить на уровне значимости р=0,01 гипотезу о зависимости числа употребления глагольных форм от стиля речи.

План выполнения работы:

1) Сформировать нулевую Н0 и альтернативную Н1 гипотезы.

(нулевая гипотеза содержит утверждение о равенстве средних значений результативного признака на всех уровнях фактора, альтернативная – утверждение о различие по крайней мере двух средних значений).

2) Найти общее среднееи групповые средние значения:,,.

3) Вычислить суммы квадратов отклонений значений выборки от среднего :

4) Определить числа степеней свободы: ;; .

5) Найти средние квадраты отклонений: и .

6) Вычислить эмпирическое F-отношение:

7) По таблице критических значений F-распределения (распределение Фишера-Снедекора) найти уровень значимости с найденным числом степеней свободы числителя и числом степеней свободы знаменателя .

8) Сделать вывод относительно принятия или опровержения гипотез Н0 и Н1.

Для решения задачи в программе SPSS:.

- открыть программу SPSS, в главном окне перейти на вкладку «переменные», ввести следующие переменные:

N (номер), числовая переменная, шкала порядковая;

Y (число глаголов), числовая переменная, шкала количественная;

Х (стиль речи), числовая переменная, шкала номинальная. Установить метки значений переменной Х: 1-«худож», 2-«публиц», 3-«научн», перейти в окно «данные» и ввести исходные значения переменных;

- выбрать «Анализ»→«Сравнение средних»→«Однофакторный дисперсионный анализ»;

- перенести в окно «зависимые переменные» переменную Y, а в окно «фактор» переменную Х (стиль речи);

- открыть вкладку «параметры» и отметить «описательные», «проверка однородности дисперсии» и «график средних» → «продолжить» →ОК.

Получаем: 1) описательные статистики; 2) критерий однородности дисперсии по статистике Ливиня (если уровень значимости (Знч) больше 0,05, то отличие дисперсий статистически не значимо; 3) - дисперсионный анализ (если уровень значимости не превышает 0,05, то отличия средних значений в группах статистически значимо); 4) график зависимости среднего значения количества глаголов от стиля речи.

Список рекомендуемой литературы

  1. Большев Л.Н., Смирнов Н.В. Таблицы математической статистики. М.: Наука,1983.

  2. Вентцель Е.С. Теория вероятностей. М.: КноРус, 2010.

  3. Виноградов  О. П. ЧТО ТАКОЕ ЗАКОН БОЛЬШИХ ЧИСЕЛ. М.:СУНЦ МГУ, 2008.

  4. Гмурман В.Е. Теория вероятностей и математическая статистика. – М.: Высшее образование, 2009.

  5. Гнеденко Б.В., Хинчин А.Я. Элементарное введение в теорию вероятностей. – М.: Наука, 1982.

  6. Головин Б.Н. Язык и статистика. М., «Просвещение», 1971.

  7. Гресс  П.В. Математика для гуманитариев.Учебное пособие. – М.: Логос, 2004.

  8. Колемаев В.А., Калинина В.Н., под ред. В.А. Колемаева. Теория вероятностей и математическая статистика. Учебник :– М.: ИНФРА-М, Высшее образование, 1997.

  9. Кремер  Н.Ш. Теория вероятностей и математическая статистика: учебник для вузов. М.:ЮНИТИ_ДАНА, 2009.

  10. Колмогоров А.Н., Журбенко И.Г., Прохоров А.В. Введение в теорию вероятностей. - М.: Физматлит, 1995.

  11. Лунгу  К.Н., Норин В.П., Письменный Д.Т., Шевченко В.А. Сборник задач по высшей математике. 2. – М., Айрис-Пресс, 2004.

  12. Мхитарян В.С., Астафьева Е.В., Миронкина Ю.Н., Трошин Л.И. Теория вероятностей и математическая статистика. – М.: Московская финансово-промышленная академия, 2011.

  13. Наследов А.Д. Математические методы психологического исследования. Анализ и интерпретация данных. Учебное пособие. – СПб.: Речь, 2004.

  14. Наследов А.Д. SPSS: компьютерный анализ данных в психологии и соц. науках / А.Д.Наследов. - СПб.: Питер Принт, 2005.

  15. Письменный, Д.Т. Конспект лекций по теории вероятностей, математической статистике и случайным процессам. -М.: Айрис-пресс, 2006.

  16. Пиотровский Р.Г., Бектаев К.Б., Пиотровская А.А. Математическая лингвистика. Учебное пособие для пед. ин-тов. М., «Высш. Школа», 1997.

  17. Пятков А.В. Статистические методы анализа данных для гуманитариев.- Архангельск: Поморский унивеситет, 2007.

  18. Черенков Н.И. Учебное пособие по курсу «Математика». Северо- Западная академия государственной службы, г.Северодвинск, 2006.

Приложения. Таблицы математической статистики.