logo
серега курсач1

1.2. Методы математической статистики в прогнозировании

Статистические методы - методы анализа статистических данных. Статистические методы анализа данных применяются практически во всех областях деятельности человека. Их используют всегда, когда необходимо получить и обосновать какие-либо суждения о группе (объектов или субъектов) с некоторой внутренней неоднородностью.

Целесообразно выделить три вида научной и прикладной деятельности в области статистических методов анализа данных (по степени специфичности методов, сопряженной с погруженностью в конкретные проблемы):

а) разработка и исследование методов общего назначения, без учета специфики области применения;

б) разработка и исследование статистических моделей реальных явлений и процессов в соответствии с потребностями той или иной области деятельности;

в) применение статистических методов и моделей для статистического анализа конкретных данных.

Кратко рассмотрим три только что выделенных вида научной и прикладной деятельности. По мере движения от А к В сужается широта области применения конкретного статистического метода, но при этом повышается его значение для анализа конкретной ситуации. Если работам вида А соответствуют научные результаты, значимость которых оценивается по общенаучным критериям, то для работ вида В основное - успешное решение конкретных задач той или иной области применения (техники и технологии, экономики, социологии, медицины и др.). Работы вида В занимают промежуточное положение, поскольку, с одной стороны, теоретическое изучение свойств статистических методов и моделей, предназначенных для определенной области применения, может быть весьма сложным и математизированным, с другой - результаты представляют не всеобщий интерес, а лишь для некоторой группы специалистов. Можно сказать, что работы вида Б нацелены на решение типовых задач конкретной области применения.

Статистические методы анализа данных, относящиеся к группе А, обычно называют методами прикладной статистики. Таким образом, прикладная статистика - это наука о том, как обрабатывать данные произвольной природы, без учета их специфики.

Математическая основа прикладной статистики и статистических методов анализа данных в целом - это математическая наука, известная под названием "теория вероятностей и математическая статистика". Как уже было отмечено выше, прикладная статистика - другая область знаний, чем математическая статистика.

Описание вида данных и, при необходимости, механизма их порождения - начало любого статистического исследования. Отметим, что для описания данных применяют как детерминированные, так и вероятностные методы. С помощью детерминированных методов можно проанализировать только те данные, которые имеются в распоряжении исследователя. Например, с их помощью получены таблицы, рассчитанные органами официальной государственной статистики на основе представленных предприятиями и организациями статистических отчетов. Перенести полученные результаты на более широкую совокупность, использовать их для предсказания и управления можно лишь на основе вероятностно-статистического моделирования. Поэтому в математическую статистику часто включают лишь методы, опирающиеся на теорию вероятностей, оставляя детерминированные методы экономической учебной дисциплине "Общая теория статистики".

Вряд ли возможно противопоставлять детерминированные и вероятностно-статистические методы. Мы рассматриваем их как последовательные этапы статистического анализа. На первом этапе необходимо проанализировать имеющие данные, представить их в удобном для восприятия виде с помощью таблиц и диаграмм. Затем статистические данные целесообразно проанализировать на основе тех или иных вероятностно-статистических моделей. Отметим, что возможность более глубокого проникновения в суть реального явления или процесса обеспечивается разработкой адекватной математической модели.

В простейшей ситуации статистические данные - это значения некоторого признака, свойственного изучаемым объектам. Значения могут быть количественными или представлять собой указание на категорию, к которой можно отнести объект. Во втором случае говорят о качественном признаке.

При измерении по нескольким количественным или качественным признакам в качестве статистических данных об объекте получаем вектор. Его можно рассматривать как новый вид данных. В таком случае выборка состоит из набора векторов. Есть часть координат - числа, а часть - качественные (категоризованные) данные, то говорим о векторе разнотипных данных.

Элементами выборки могут быть и иные математические объекты. Например, бинарные отношения. Так, при опросах экспертов часто используют упорядочения (ранжировки) объектов экспертизы - образцов продукции, инвестиционных проектов, вариантов управленческих решений. В зависимости от регламента экспертного исследования элементами выборки могут быть различные виды бинарных отношений (упорядочения, разбиения, толерантности), множества, нечеткие множества и т. д.

Итак, математическая природа элементов выборки в различных задачах прикладной статистики может быть самой разной. Однако можно выделить два класса статистических данных - числовые и нечисловые. Соответственно прикладная статистика разбивается на две части - числовую статистику и нечисловую статистику.

Числовые статистические данные - это числа, вектора, функции. Их можно складывать, умножать на коэффициенты. Поэтому в числовой статистике большое значение имеют разнообразные суммы. Математический аппарат анализа сумм случайных элементов выборки - это (классические) законы больших чисел и центральные предельные теоремы.

Нечисловые статистические данные - это категоризованные данные, вектора разнотипных признаков, бинарные отношения, множества, нечеткие множества и др. Их нельзя складывать и умножать на коэффициенты. Поэтому не имеет смысла говорить о суммах нечисловых статистических данных. Они являются элементами нечисловых математических пространств (множеств). Математический аппарат анализа нечисловых статистических данных основан на использовании расстояний между элементами (а также мер близости, показателей различия) в таких пространствах. С помощью расстояний определяются эмпирические и теоретические средние, доказываются законы больших чисел, строятся непараметрические оценки плотности распределения вероятностей, решаются задачи диагностики и кластерного анализа, и т.д.

В прикладных исследованиях используют статистические данные различных видов. Это связано, в частности, со способами их получения. Например, если испытания некоторых технических устройств продолжаются до определенного момента времени, то получаем т.н. цензурированные данные, состоящие из набора чисел - продолжительности работы ряда устройств до отказа, и информации о том, что остальные устройства продолжали работать в момент окончания испытания. Цензурированные данные часто используются при оценке и контроле надежности технических устройств.

К современным статистическим методам прогнозирования относятся также модели авторегрессии, модель Бокса-Дженкинса, системы эконометрических уравнений, основанные как на параметрических, так и на непараметрических подходах.

Для установления возможности применения асимптотических результатов при конечных (т.н. "малых") объемах выборок полезны компьютерные статистические технологии. Они позволяют также строить различные имитационные модели. Отметим полезность методов размножения данных (бутстреп-методов). Системы прогнозирования с интенсивным использованием компьютеров объединяют различные методы прогнозирования в рамках единого автоматизированного рабочего места прогнозиста.

Прогнозирование на основе данных, имеющих нечисловую природу, в частности, прогнозирование качественных признаков основано на результатах статистики нечисловых данных. Весьма перспективными для прогнозирования представляются регрессионный анализ на основе интервальных данных, включающий, в частности, определение и расчет нотны и рационального объема выборки, а также регрессионный анализ нечетких данных. Общая постановка регрессионного анализа в рамках статистики нечисловых данных и ее частные случаи - дисперсионный анализ и дискриминантный анализ (распознавание образов с учителем), давая единый подход к формально различным методам, полезна при программной реализации современных статистических методов прогнозирования.

Итак, статистические методы представляют собой совокупность методов обработки количественной информации об объекте прогнозирования, объединенной по принципу выявления содержащихся в ней математических закономерностей изменения характеристик данного объекта с целью получения прогнозных моделей.