logo search
серега курсач1

Статистика: понятие, содержание

Первая публикация по статистике - это "Книга чисел" в Библии, в Ветхом Завете, в которой рассказано о переписи военнообязанных, проведённой под руководством Моисея и Аарона. Впервые термин "статистика" мы находим в художественной литературе - в "Гамлете" Шекспира (1602 г., акт 5, сцена 2). Смысл этого слова у Шекспира - знать, придворные. По-видимому, оно происходит от латинского слова status, что в оригинале означает "состояние" или "политическое состояние". В течение следующих 400 лет термин "статистика" понимали и понимают по-разному. В литературе собрано более 200 определений этого термина, некоторые из которых приводятся ниже.

Вначале под статистикой понимали описание экономического и политического состояния государства или его части. Например, к 1792 г. относится определение: "статистика описывает состояние государства в настоящее время или в некоторый известный момент в прошлом". И в настоящее время деятельность государственных статистических служб вполне укладывается в это определение.

Однако постепенно термин "статистика" стал использоваться более широко. По Наполеону Бонапарту, "статистика - это бюджет вещей". Тем самым статистические методы были признаны полезными не только для административного управления, но и для применения на уровне отдельного предприятия. Согласно формулировке 1833 г., "цель статистики заключается в представлении фактов в наиболее сжатой форме". Приведем ещё два высказывания. Статистика состоит в наблюдении явлений, которые могут быть подсчитаны или выражены посредством чисел (1895). Статистика - это численное представление фактов из любой области исследования в их взаимосвязи.

Сразу после возникновения теории вероятностей (Паскаль, Ферма, XVII век) вероятностные модели стали использоваться при обработке статистических данных. Например, изучалась частота рождения мальчиков и девочек, было установлено отличие вероятности рождения мальчика от 0,5, анализировались причины того, что в парижских приютах эта вероятность не та, что в самом Париже, и т.д. Имеется много публикаций по истории теории вероятностей с описанием раннего этапа развития статистических методов исследований.

В 19 веке заметный вклад в развитие практической статистики внёс бельгиец Кетле, на основе анализа большого числа реальных данных показавший устойчивость относительных статистических показателей, таких, как доля самоубийств среди всех смертей. Интересно, что основные идеи статистического приёмочного контроля и сертификации продукции обсуждались академиком Петербургской АН М.В. Остроградским (1801-1862) и применялись в российской армии ещё в середине Х1Х в. Статистические методы управления качеством и сертификации продукции сейчас весьма актуальны.

Современный этап развития статистических методов можно отсчитывать с 1900 г., когда англичанин К. Пирсон основал журнал "Biometrika". Первая треть ХХ в. прошла под знаком параметрической статистики. Изучались методы, основанные на анализе данных из параметрических семейств распределений, описываемых кривыми семейства Пирсона. Наиболее популярным было нормальное (гауссово) распределение. Для проверки гипотез использовались критерии Пирсона, Стьюдента, Фишера. Были предложены метод максимального правдоподобия, дисперсионный анализ, сформулированы основные идеи планирования эксперимента.

Разработанную в первой трети ХХ в. теорию анализа данных называем параметрической статистикой, поскольку её основной объект изучения - это выборки из распределений, описываемых одним или небольшим числом параметров. Наиболее общим является семейство кривых Пирсона, задаваемых четырьмя параметрами. Как правило, нельзя указать каких-либо веских причин, по которым распределение результатов конкретных наблюдений должно входить в то или иное параметрическое семейство. Исключения хорошо известны: если вероятностная модель предусматривает суммирование независимых случайных величин, то сумму естественно описывать нормальным распределением; если же в модели рассматривается произведение таких величин, то итог, видимо, приближается логарифмически нормальным распределением, и т. д. Однако подобных моделей нет в подавляющем большинстве реальных ситуаций, и приближение реального распределения с помощью кривых из семейства Пирсона или его подсемейств - чисто формальная операция. Именно из таких соображений критиковал параметрическую статистику академик АН СССР С. Н. Бернштейн в 1927 г. Однако эта теория и до сих пор продолжает использоваться значительной массой прикладников.

В ХХ в. статистику часто рассматривают прежде всего как самостоятельную научную дисциплину. Статистика есть совокупность методов и принципов, согласно которым проводится сбор, анализ, сравнение, представление и интерпретация числовых данных (1920-е гг.). В 1954 г. академик Б.В. Гнеденко дал следующее определение: "Статистика состоит из трёх разделов:

1) сбор статистических сведений, то есть сведений, характеризующих отдельные единицы каких-либо массовых совокупностей;

2) статистическое исследование полученных данных, заключающееся в выяснении тех закономерностей, которые могут быть установлены на основе данных массового наблюдения;

3) разработка приёмов статистического наблюдения и анализа статистических данных. Последний раздел, собственно, и составляет содержание математической статистики".

Термин "статистика" употребляют ещё в двух смыслах.

Во-первых, в обиходе под "статистикой" часто понимают набор количественных данных о каком-либо явлении или процессе.

Во-вторых, статистикой называют функцию от результатов наблюдений, используемую для оценивания характеристик и параметров распределений и проверки гипотез.

Со временем результаты обработки статистических данных стали представлять в виде таблиц и диаграмм, как это сейчас делает Федеральная служба государственной статистики России (Росстат) РФ.

Математическая статистика играет роль математического фундамента для прикладной статистики.

К настоящему времени очевидно чётко выраженное размежевание этих двух научных направлений. Математическая статистика исходит из сформулированных в 1930-50 гг. постановок математических задач, происхождение которых связано с анализом статистических данных. Начиная с 70-х годов ХХ в. исследования по математической статистике посвящены обобщению и дальнейшему математическому изучению этих задач. Поток новых математических результатов (теорем) не ослабевает, но новые практические рекомендации по обработке статистических данных при этом не появляются. Можно сказать, что математическая статистика как научное направление замкнулась внутри себя.

Сам термин "прикладная статистика" возник как реакция на описанную выше тенденцию. Прикладная статистика нацелена на решение реальных задач. Поэтому в ней возникают новые постановки математических задач анализа статистических данных, развиваются и обосновываются новые методы. Обоснование часто проводится математическими методами, то есть путём доказательства теорем. Большую роль играет методологическая составляющая - как именно ставить задачи, какие предположения принять с целью дальнейшего математического изучения. Велика роль современных информационных технологий, в частности, компьютерного эксперимента.

Прикладная статистика включает в себя две внематематические области. Во-первых, методологию организации статистического исследования: как планировать исследование, как собирать данные, как подготавливать данные к обработке, как представлять результаты. Во-вторых, организацию компьютерной обработки данных, в том числе разработку и использование баз данных и электронных таблиц, статистических программных продуктов, например, диалоговых систем анализа данных.

Необходимо отметить, что между математической и прикладной статистикой имеется и с течением времени углубляется разрыв. Он проявляется, в частности, в том, что большинство методов, включенных в статистические пакеты программ, даже не упоминается в учебниках по математической статистике. В результате разрыва специалист по математической статистике оказывается зачастую беспомощным при обработке реальных данных, а пакеты программ применяют (что еще хуже - и разрабатывают) лица, не имеющие необходимой теоретической подготовки. Естественно, что они допускают разнообразные ошибки. Типовые ошибки при применении критериев согласия Колмогорова и омега-квадрат давно проанализированы в литературе.

Итак, статистика - наука, исследующая с количественной стороны в неразрывной связи с качественной массовые явления, к какой бы области они ни относились, но обладающие признаками совокупности. Прикладная статистика и математическая статистика - это две разные научные дисциплины. Курс математической статистики состоит в основном из доказательств теорем. В курсах прикладной статистики основное - методология анализа данных и алгоритмы расчётов, а теоремы приводятся как обоснования этих алгоритмов, доказательства же, как правило, опускаются.