logo
Конспект лекций по ТВМС

Лекция 17 (уир). Понятие о корреляционном анализе.

Экономические явления и процессы находятся в тесной взаимосвязи, и исследование этой взаимосвязи играет важную роль в экономических исследованиях. Знание взаимосвязей отдельных экономических параметров дает возможность прогнозировать развитие ситуации при изменении конкретных характеристик объекта исследования. Основное содержание экономической политики, в конечном счете, может быть сведено к регулированию экономических переменных, осуществляемому на базе выявленной информации об их взаимовлиянии. Поэтому проблема изучения взаимосвязей показателей является одной из важнейших в статистическом анализе экономических систем.

Для исследования силы связи между переменными широко применяется корреляционный анализ, позволяющий, совместно с регрессионным анализом, решать задачи прогнозирования, планирования и анализа хозяйственной деятельности экономических систем (предприятий, фирм, отраслей и т.д.).

Корреляция в широком смысле слова означает связь, соотношение между объективно существующими явлениями. Связи между явлениями могут быть различны по силе (интенсивности). Если случайные переменные причинно обусловлены, то имеется корреляция.

Таким образом, если в регрессионном анализе исследуется форма связи между переменными, то в корреляционном анализе исследуется сила (теснота) связи.

Корреляция может быть:

К важнейшим задачам корреляционного анализа можно отнести:

В случае лишь одной независимой переменой X в качестве меры связи между ней и зависимой переменной Y служит коэффициент корреляции. Он оценивается по выборке объема n связанных пар наблюдений (xi, yi). В случае нескольких переменных необходимо последовательно вычислять коэффициенты корреляции по нескольким рядам числовых данных. Полученные коэффициенты сводят в таблицы, называемые корреляционными матрицами.

Корреляционная матрица представляет собой квадратную матрицу, на пересечении строки и столбца которой находится коэффициент корреляции между соответствующими переменными.

Если в результате испытаний система двух случайных величин приняла значения , то коэффициент корреляции равен

где - средние значения, а - средние квадратические отклонения случайных величин соответственно.

Для многомерной выборки (т. е. в случае более двух факторов) необходимо рассчитать корреляционную матрицу

,

которая является симметричной относительно главной диагонали.

Пример

Имеются ежемесячные данные наблюдений за состоянием погоды и посещаемостью музея и парка, приведенные в таблице

Число ясных дней

(X1)

Количество посетителей музея

(X2)

Количество посетителей парка

(X3)

8

495

132

14

503

348

20

380

643

25

305

865

20

348

743

15

465

541

Необходимо определить, существует ли взаимосвязь между состоянием погоды и посещаемостью музеев и парков. В результате расчета получим корреляционную матрицу

Из корреляционной матрицы видно, что корреляция между состоянием погоды и посещаемостью музея равна -0,921, а между состоянием погоды и посещаемостью парка 0,975. Таким образом, выявлена отрицательная корреляция между посещаемостью музея и количеством солнечных дней и практически линейная положительная корреляция между посещаемостью парка и состоянием погоды.

Чрезвычайно важным понятием корреляционного анализа является остаточная дисперсия. Фактически, выбор вида уравнения регрессии осуществляется экспериментальным методом – путем сравнения величины остаточной дисперсии, рассчитанной при разных моделях.

Если кривая регрессии проходит через все точки корреляционного поля (что возможно лишь при функциональной связи), то фактические значения результативного признака Y совпадают с теоретическими. При этом значения результативного признака полностью обусловлены влиянием рассматриваемого фактора и остаточная дисперсия равна нулю.

На практике, как правило, наблюдается некоторое рассеяние точек относительно линии регрессии из-за влияния не учитываемых в уравнении регрессии факторов и ошибок измерений. Иными словами, имеют место отклонения фактических данных от теоретических ( ). Величина этих отклонений и определяет величину остаточной дисперсии

,

где - фактические, - теоретические данные.

Чем меньше величина остаточной дисперсии, тем меньше влияние не учитываемых в уравнении регрессии факторов, и тем лучше уравнение регрессии соответствует исходным данным. При обработке статистических данных на компьютере перебираются разные математические функции, и из них выбирается та, для которой остаточная дисперсия является наименьшей.

Рассмотрим сначала случай парной корреляции.