Основы математической обработки информации / Пособие для фф

6.1. Предмет математической статистики. Генеральная и выборочная совокупность.

Математическая статистика – раздел математики, который изучает способы отбора, группировки, систематизации и анализа статистических данных, для получения научно обоснованных выводов.
Статистические данные – числовые значения рассматриваемого признака изучаемых объектов, полученные как результат случайного эксперимента.
Генеральная совокупность – статистические данные всех изучаемых объектов (иногда – сами объекты). Часто генеральную совокупность рассматривают как СВ Х.
Выборка – статистические данные объектов, выбранных из генеральной совокупности.
Объём выборки n (генеральной совокупности N) – количество объектов, выбранных для изучения из генеральной совокупности (количество объектов в генеральной совокупности).

Математическая статистика тесно связана с теорией вероятностей, но в отличие от теории вероятностей, математическая модель эксперимента неизвестна. В математической статистике по статистическим данным необходимо установить неизвестное распределение вероятностей или объективно оценить параметры распределения генеральной совокупности.

Методы математической статистики позволяют строить оптимальные математические модели массовых, повторяющихся явлений. Связующим звеном между теорией вероятностей и математической статистикой являются предельные теоремы теории вероятностей.

В настоящее время статистические методы используются практически во всех отраслях народного хозяйства.

Примеры.

а) статистическими данными могут быть:

рост студентов; количество глаголов (или других частей речи) в отрывке текста определённой длины; средний балл аттестата; уровень интеллекта; число ошибок, допущенных диспетчером и т. п.

б) генеральной совокупностью может быть: рост всех людей, разряды всех рабочих завода, частота употребления определённой части речи во всех произведениях изучаемого автора, средний балл аттестата всех выпускников и т. п.

в) выборкой может быть: – рост 20 студентов, количество глаголов в выбранных произвольно 50 однородных отрывках текста длиной 500 словоупотреблений, средний балл аттестата 100 выпускников, выбранных случайно из школ города и т.п.

Если исследуются произведения А.С. Пушкина, то генеральной совокупностью могут быть длины словоформ всех текстов, написанных А.С. Пушкиным, а выборкой – длины словоформ отдельного произведения, например, повести «Капитанская дочка».

Выборка называется репрезентативной, если она верно отражает свойство генеральной совокупности. Репрезентативность выборки достигается случайностью отбора, когда все объекты генеральной совокупности имеют одинаковую вероятность быть отобранными.

Для того чтобы выборка была репрезентативной применяют различные способы отбора объектов изучения.

Виды отбора: простой, механический, серийный, типический.

Простой. Произвольно отбираются элементы из всей генеральной совокупности.

Механический отбор. Выбирают каждый 10 (25, 30 и т.п.) объект из генеральной совокупности.

Серийный. Проводится исследование в каждой серии (например, из текста выбирают 10 отрывков по 500 словоупотреблений- 10 серий).

Типический. Генеральную совокупность по определённому признаку разделяют на типические группы. Количество серий, извлекаемых из каждой такой группы, определяется удельным весом этой группы в генеральной совокупности.

Б.Н. Головин посвятил организации статистического изучения языка и речи главу своего труда «Язык и статистика».^¹⁵

Лингвист берёт из интересующего его текста несколько проб (выборок) определённой длины.

Какого объёма должна быть выборка? Чем активнее интересующие нас факты языка, т.е. чем чаще они применяются, тем меньшие по длине выборки нужны, чтобы проступила изучаемая закономерность. Например, для того, чтобы обнаружилась закономерность количественной активности имени существительного в публицистическом тексте, длина одной выборки должна быть 100 или даже 50 знаменательных слов, но для того, чтобы уловить закономерность частотного функционирования отдельного слова (весна, день и т.д.) требуются выборки в несколько тысяч слов каждая.

Для успешного статистического изучения многих явлений морфологии синтаксиса достаточно удобны выборки длиной 500 или даже 250 знаменательных слов (если изучаются части речи, члены предложения, а не предложения в целом) или в 250 или даже 100 самостоятельных предложений (если изучаются предложения в целом).

Какое число выборок может обеспечить достаточно надёжные результаты?

При изучении морфологии и синтаксиса достаточно надёжные результаты можно получить, имея и 10 выборок по 500 знаменательных слов каждая. Конечно, увеличение числа выборок увеличит и надёжность результата, но иногда можно ограничиться и пятью – восемью выборками.

Нужно ли в выборку включать все слова текста, одно за другим, или же слова брать наугад?

Если лингвиста интересуют не только сами по себе частоты, но и условия функционирования изучаемых явлений и влияние этих условий на закономерности функционирования языковых элементов, - выборка должна быть сплошной.

Должны ли быть выборки по возможности однородными?

Конечно, выборки должны быть по возможности однородными. Неоднородность текста (жанровая, стилевая, содержательная) даст очень большие колебания частот, и тем самым не позволит экспериментатору обнаружить статистическую закономерность.

Например, изучая особенности художественной речи Л. Толстого, нецелесообразно брать одну выборку из художественного повествования в «Войне и мире», другую - из диалога персонажей того же романа, третью – из рассказов для народа, а четвёртую– из философских раздумий писателя.

Любая выборка должна быть документирована исследователем, т.е. должны быть указаны её границы в тексте.

Предпочтительнее, когда все выборки имеют одинаковую длину, что существенно упрощает необходимую статистическую обработку данных, полученных в опыте.

Содержание