6.1. Предмет математической статистики. Генеральная и выборочная совокупность.
Математическая статистика – раздел математики, который изучает способы отбора, группировки, систематизации и анализа статистических данных, для получения научно обоснованных выводов.
Статистические данные – числовые значения рассматриваемого признака изучаемых объектов, полученные как результат случайного эксперимента.
Генеральная совокупность – статистические данные всех изучаемых объектов (иногда – сами объекты). Часто генеральную совокупность рассматривают как СВ Х.
Выборка – статистические данные объектов, выбранных из генеральной совокупности.
Объём выборки n (генеральной совокупности N) – количество объектов, выбранных для изучения из генеральной совокупности (количество объектов в генеральной совокупности).
Математическая статистика тесно связана с теорией вероятностей, но в отличие от теории вероятностей, математическая модель эксперимента неизвестна. В математической статистике по статистическим данным необходимо установить неизвестное распределение вероятностей или объективно оценить параметры распределения генеральной совокупности.
Методы математической статистики позволяют строить оптимальные математические модели массовых, повторяющихся явлений. Связующим звеном между теорией вероятностей и математической статистикой являются предельные теоремы теории вероятностей.
В настоящее время статистические методы используются практически во всех отраслях народного хозяйства.
Примеры.
а) статистическими данными могут быть:
рост студентов; количество глаголов (или других частей речи) в отрывке текста определённой длины; средний балл аттестата; уровень интеллекта; число ошибок, допущенных диспетчером и т. п.
б) генеральной совокупностью может быть: рост всех людей, разряды всех рабочих завода, частота употребления определённой части речи во всех произведениях изучаемого автора, средний балл аттестата всех выпускников и т. п.
в) выборкой может быть: – рост 20 студентов, количество глаголов в выбранных произвольно 50 однородных отрывках текста длиной 500 словоупотреблений, средний балл аттестата 100 выпускников, выбранных случайно из школ города и т.п.
Если исследуются произведения А.С. Пушкина, то генеральной совокупностью могут быть длины словоформ всех текстов, написанных А.С. Пушкиным, а выборкой – длины словоформ отдельного произведения, например, повести «Капитанская дочка».
Выборка называется репрезентативной, если она верно отражает свойство генеральной совокупности. Репрезентативность выборки достигается случайностью отбора, когда все объекты генеральной совокупности имеют одинаковую вероятность быть отобранными.
Для того чтобы выборка была репрезентативной применяют различные способы отбора объектов изучения.
Виды отбора: простой, механический, серийный, типический.
Простой. Произвольно отбираются элементы из всей генеральной совокупности.
Механический отбор. Выбирают каждый 10 (25, 30 и т.п.) объект из генеральной совокупности.
Серийный. Проводится исследование в каждой серии (например, из текста выбирают 10 отрывков по 500 словоупотреблений- 10 серий).
Типический. Генеральную совокупность по определённому признаку разделяют на типические группы. Количество серий, извлекаемых из каждой такой группы, определяется удельным весом этой группы в генеральной совокупности.
Б.Н. Головин посвятил организации статистического изучения языка и речи главу своего труда «Язык и статистика».15
Лингвист берёт из интересующего его текста несколько проб (выборок) определённой длины.
Какого объёма должна быть выборка? Чем активнее интересующие нас факты языка, т.е. чем чаще они применяются, тем меньшие по длине выборки нужны, чтобы проступила изучаемая закономерность. Например, для того, чтобы обнаружилась закономерность количественной активности имени существительного в публицистическом тексте, длина одной выборки должна быть 100 или даже 50 знаменательных слов, но для того, чтобы уловить закономерность частотного функционирования отдельного слова (весна, день и т.д.) требуются выборки в несколько тысяч слов каждая.
Для успешного статистического изучения многих явлений морфологии синтаксиса достаточно удобны выборки длиной 500 или даже 250 знаменательных слов (если изучаются части речи, члены предложения, а не предложения в целом) или в 250 или даже 100 самостоятельных предложений (если изучаются предложения в целом).
Какое число выборок может обеспечить достаточно надёжные результаты?
При изучении морфологии и синтаксиса достаточно надёжные результаты можно получить, имея и 10 выборок по 500 знаменательных слов каждая. Конечно, увеличение числа выборок увеличит и надёжность результата, но иногда можно ограничиться и пятью – восемью выборками.
Нужно ли в выборку включать все слова текста, одно за другим, или же слова брать наугад?
Если лингвиста интересуют не только сами по себе частоты, но и условия функционирования изучаемых явлений и влияние этих условий на закономерности функционирования языковых элементов, - выборка должна быть сплошной.
Должны ли быть выборки по возможности однородными?
Конечно, выборки должны быть по возможности однородными. Неоднородность текста (жанровая, стилевая, содержательная) даст очень большие колебания частот, и тем самым не позволит экспериментатору обнаружить статистическую закономерность.
Например, изучая особенности художественной речи Л. Толстого, нецелесообразно брать одну выборку из художественного повествования в «Войне и мире», другую - из диалога персонажей того же романа, третью – из рассказов для народа, а четвёртую– из философских раздумий писателя.
Любая выборка должна быть документирована исследователем, т.е. должны быть указаны её границы в тексте.
Предпочтительнее, когда все выборки имеют одинаковую длину, что существенно упрощает необходимую статистическую обработку данных, полученных в опыте.
- Часть1. Тематический план дисциплины
- Часть 2. Конспекты лекций 8
- Часть 3. Вопросы и задания для практических работ. 79
- Часть 4. Задания для самостоятельной работы 92
- Часть 5. Лабораторные работы 97
- Часть1. Тематический план дисциплины «Основы математической обработки информации»
- Часть 2. Конспекты лекций
- 1.1. Исторические периоды развития математики.
- 1.2. Основы теории множеств
- 1.2.1. Начальные понятия теории множеств.
- 2.1.3. Основные понятия комбинаторики
- 2) Перестановка из n элементов – это размещение из n элементов по n.
- 2.2. Начальные понятия теории вероятностей
- 2.2.2. Определения вероятности событий
- 3.1. Действия над событиями
- 3.2. Вероятность суммы событий
- 3.3. Вероятность произведения событий.
- 3.4. Вычисление вероятности цепочек языковых элементов.
- 3.5. Формула полной вероятности. Формула Байеса.
- 1 H2) Формула полной вероятности.
- 3.6. Теорема Бернулли
- 3.7. Вероятностное моделирование порождения текста.
- 3.8. Предельные теоремы в схеме Бернулли
- 4.1. Случайная величина (св). Начальные понятия.
- 4.2. Функция распределения св (интегральная функция распределения) f(X)
- 4.3. Функция плотности вероятности нсв f(X)
- 4.4. Числовые характеристики св
- 4.5. Законы распределения случайных величин.
- 1) Биномиальный закон распределения.
- 2) Закон Пуассона
- 3) Нормальное распределение (закон Гаусса)
- 6. Вероятность попадания нсв х в заданный промежуток
- 7. Логнормальное распределение
- 5.1. Система двух случайных величин (двумерная св) (1 час)
- 5.1.1. Начальные понятия.
- 5.1.2. Операции над независимыми случайными величинами
- 5.1.3. Числовые характеристики системы двух св
- 5.2. Предельные теоремы теории вероятностей: Закон больших чисел, Центральная предельная теорема и их значение для лингвистического эксперимента.(1 час)
- 5.2.1. Теорема Чебышева для среднего арифметического случайных величин.
- 6.1. Предмет математической статистики. Генеральная и выборочная совокупность.
- 6.2. Статистическое распределение выборки и его графическое изображение
- 6.2.1. Дискретный статистический ряд
- 6.2.2. Интервальный статистический ряд
- 6.3. Числовые характеристики статистического распределения
- Лекция 7. Элементы теории статистических оценок и проверки гипотез.
- 7.1 Статистические оценки параметров распределения и их свойства. Оценка параметров генеральной совокупности по выборке
- 7.1.1. Свойства статистических оценок:
- 7.1.2. Точечные оценки математического ожидания, дисперсии и вероятности.
- 7.1.3. Интервальное оценивание параметров.
- 7.1.4. Доверительные интервалы для параметров нормального распределения
- 7.1.5. Число степеней свободы
- 7.1.7. Определение минимально достаточного объёма выборки в грамматических, фонетико-фонологических и лексикологических исследованиях.
- 7.2. Проверка статистических гипотез. Исследование вероятностных свойств языка и статистики текста с помощью метода гипотез.
- 7.2. Проверка статистических гипотез.
- 7.2.1. Статистические гипотезы.
- 7.2.2. Статистический критерий
- 4.2.3. Принцип проверки статистических гипотез
- 7.2.4. Ошибки при проверке гипотез
- 7.2.5. Проверка лингвистических гипотез с помощью параметрических критериев.
- 7.2.6. Проверка гипотез с помощью непараметрических критериев.
- Часть 3. Вопросы и задания для практических работ.
- I. Элементы комбинаторики.
- Часть 4. Задания для самостоятельной работы
- 1. Графический способ.
- 2. Критерий асимметрии и эксцесса.
- 3. Критерий Колмогорова-Смирнова.
- 4. Критерий Пирсона
- Приложение 1. Значения интегральной функции Лапласа
- Приложение 2. Критические значения ( распределение Пирсона)