logo
Элементы математической статистики

1. Предмет и методы математической статистики

Статистика (stato - состояние ) - это совокупность данных наблюдений, статистическая совокупность - это, как правило, количественная оценка исследуемого явления, собранная из разных источников или в одном месте в разное время (числовые значения). Практически любое статистическое исследование базируется на некоторой выборке, состоящей из случайных величин (CВ). Различаются случайные величины дискретного (прерывного) и непрерывного типа. Возможные значения дискретных СВ могут быть заранее перечислены. Допустимые значения непрерывных величин не могут быть заранее перечислены и непрерывно заполняют некоторый промежуток конечный или бесконечный. Кроме того существует СВ смешанного типа. В дальнейшем рассматриваются только непрерывные и дискретные величины. Под законом распределения СВ понимается соотношение, устанавливающее связь между возможными множествами значений случайной величины и соответствующим им вероятностями.

Законом распределения дискретной СВ является таблица соответствий возможных значений и вероятностей носит название - ряд распределения. Графическое представление - полигон, гистограмма. Каждое из значений Х= xi дискретной СВ возможно, но не достоверно, поэтому может принять каждое из них с некоторой вероятностью pi.=Р(Х=xi).Сумма вероятностей всех возможных значений равна единице. условие нормировки Для непрерывных СВ величин табличное представление оказывается невозможным, поэтому, применяется вероятность не отдельного значения события , а некоторого интервала значений, т.е. применяется функция распределения . Эта функция иногда называется интегральной функцией распределения или интегральным законом распределения Функция - производная функции распределения характеризует плотность распределения. С условием нормировки Кривая, изображающая плотность распределения случайной величины, называется кривой распределения.

Генеральной совокупностью - называется совокупность, включающая в себя все возможные значения данных CВ. Такую совокупность практически трудно создать в силу бесконечного ее объема, поэтому чаще всего статистика оперирует с некоторой частью генеральной совокупности, которая называется - выборкой. Под случайной повторной выборкой объема n понимают совокупность случайных величин , не зависимых между собой. Под случайной величиной понимается величина, которая в результате опыта может принять то или иное значение, неизвестно заранее - какое именно.

Случайная повторная выборка есть математическая модель проводимых в одинаковых условиях независимых измерений. В противном случае выборка называется бесповторной.

Задачи статистических наблюдений :

Учет явлений (как правило в количественном измерении) ; на основе которого проводится деление (обобщение) однородных явлений; при любых статистических исследованиях обязательно должно быть достаточно много наблюдений (испытаний, опытов); это необходимо для того, чтобы получить достоверные результаты ;

1. Аккуратная регистрация наблюдений (опытов) ;

2. Строгое соблюдение размеренности величин, соответствие точности.

3. Обрабатывая статистическими методами выборочные наблюдения, должны получать результаты, которые соответствуют всей генеральной совокупности.

Целью статистических исследований является :

-анализ существующего положения ;

-выявление тенденций ;

-прогнозирование на будущий период наблюдаемых показателей.

Математическая статистика -- наука о математических методах анализа данных, полученных при проведении массовых наблюдений (измерений, опытов). В зависимости от математической природы конкретных результатов наблюдений статистика математическая делится на статистику чисел, многомерный статистический анализ, анализ функций (процессов) и временных рядов, статистику объектов нечисловой природы. Существенная часть статистики математической основана на вероятностных моделях. Выделяют общие задачи описания данных, оценивания и проверки гипотез. Рассматривают и более частные задачи, связанные с проведением выборочных обследований, восстановлением зависимостей, построением и использованием классификаций (типологий) и др.

Для описания данных строят таблицы, диаграммы, иные наглядные представления, например, корреляционные поля. Вероятностные модели обычно не применяются. Некоторые методы описания данных опираются на продвинутую теорию и возможности современных компьютеров. К ним относятся, в частности, кластер-анализ, нацеленный на выделение групп объектов, похожих друг на друга, и многомерное шкалирование, позволяющее наглядно представить объекты на плоскости, в наименьшей степени исказив расстояния между ними.

Методы оценивания и проверки гипотез опираются на вероятностные модели порождения данных. Эти модели делятся на параметрические и непараметрические. В параметрических моделях предполагается, что изучаемые объекты описываются функциями распределения, зависящими от небольшого числа (1-4) числовых параметров. В непараметрических моделях функции распределения предполагаются произвольными непрерывными. В статистике математической оценивают параметры и характеристики распределения (математическое ожидание, медиану, дисперсию, квантили и др.), плотности и функции распределения, зависимости между переменными (на основе линейных и непараметрических коэффициентов корреляции, а также параметрических или непараметрических оценок функций, выражающих зависимости) и др. Используют точечные и интервальные (дающие границы для истинных значений) оценки.

В математической статистике есть общая теория проверки гипотез и большое число методов, посвященных проверке конкретных гипотез. Рассматривают гипотезы о значениях параметров и характеристик, о проверке однородности (то есть о совпадении характеристик или функций распределения в двух выборках), о согласии эмпирической функции распределения с заданной функцией распределения или с параметрическим семейством таких функций, о симметрии распределения и др.

Большое значение имеет раздел математической статистики, связанный с проведением выборочных обследований, со свойствами различных схем организации выборок и построением адекватных методов оценивания и проверки гипотез.

Задачи восстановления зависимостей активно изучаются более 200 лет, с момента разработки К. Гауссом в 1794 г. метода наименьших квадратов. В настоящее время наиболее актуальны методы поиска информативного подмножества переменных и непараметрические методы.

Математические методы в статистике основаны либо на использовании сумм (на основе Центральной Предельной Теоремы теории вероятностей) или показателей различия (расстояний, метрик), как в статистике объектов нечисловой природы. Строго обоснованы обычно лишь асимптотические результаты. В настоящее время компьютеры играют большую роль в математической статистике. Они используются как для расчетов, так и для имитационного моделирования (в частности, в методах размножения выборок и при изучении пригодности асимптотических результатов).