logo search
Учебн

7.1.Корреляционный анализ

Для выражения зависимости между двумя показателями в математике применяется понятие функция. Под функциональной связью понимается такой вид зависимости между переменными, когда каждому значению одной величины (аргумент) соответствует строго определенное значение другой величины (функция). Например, известно, что повышение температуры на 10оускоряет химическую реакцию в два раза, радиус окружности изменяется в строгом соответствии с изменением ее длины и т.д.

Но такие связи при изучении физических, экономических, демографических процессов встречаются крайне редко.

В предыдущих лекциях были рассмотрены вопросы себестоимости, выпускаемой предприятием. Себестоимость продукции зависит от производительности труда, своевременного поступления сырья, совершенства оборудования и др.

Существующие между различными признаками связи характеризуются тем, что определенному значению одного признака соответствует не одно, а несколько различных значений другого признака, варьирующих около своей средней величины. Такой вид связи между переменными Х и Yназывается коррелятивной связью, или просто корреляцией.

Основным мерилом связи, существующей между исследуемыми признаками, служит коэффициент корреляции, который при отсутствии разбивки вариант на группы имеет следующий вид:

(7.1)

В числителе этой формулы стоит сумма произведений отклонений вариант от средней арифметической по одному ряду на соответствующие отклонения вариант от средней арифметической по другому ряду(Y). В знаменателе произведение средних квадратичных отклонений по Х и по У, умноженное на число пар сопоставляемых величин.

Коэффициент корреляции изменяется в пределах от 0 до 1 и сопровождается либо положительным (+), либо отрицательным знаком (-), что указывает на прямую или обратную зависимость между переменными Х и У. Под прямой или положительной связью понимаются такие случаи, когда увеличение одного признака влечет за собой увеличение другого. При обратной или отрицательной связи увеличение одного признака сопровождается уменьшением величины другого. Если величины Х и У распределяются независимо друг от друга, то коэффициент корреляции равен нулю. При увеличении зависимости между варьирующими величинами коэффициент корреляции приближается к единице; r=1, означает уже не корреляционную, а функциональную связь.

Условно можно считать, что величина rот 0,1 до 0,5 указывает на слабую связь между признаками, которые в большей мере варьируют независимо друг от друга; от 0,5 до 0,7 дает представление о средней степени сопряженности, и от 0,7 и выше свидетельствует о наличии довольно сильной связи между переменными Х и У.

Квадратическая ошибка коэффициента корреляции

(7.2)

При малом числе наблюдений nберется «числом степеней свободы», обычно какn-2, и ошибкаmвычисляется по формуле.

(7.3)

Ошибка коэффициента корреляции обладает свойством приближаться к нулю, когда коэффициент корреляции приближается к единице. Так что при r=1 независимо от знакаmr=0.

Значение коэффициента корреляции оценивается с помощью критерия достоверности, который представляет отношение этого коэффициента к своей средней квадратической ошибке

(7.4)

Рассчитанный критерий достоверности сравнивается с табличным при принятом уровне значимости и числе степеней свободы. Если расчетное значение критерия достоверности больше табличного, то это свидетельствует о достоверности коэффициента корреляции.

Уровень значимости – это вероятность, которая требуется для точности определения исследуемого показателя. Уровень значимости принимается равным 0,01, если требуется точность 99% и 0,05,если требуется точность 95% .

Рассмотрим пример расчета коэффициента корреляции на примере зависимости стоимости продукции от производительности труда. Исходные данные и рассчитанные параметры, входящие в формулу (7.1) приведены в таблице 7.1.

Между производительностью и стоимостью имеет место прямая про- порциональность (рис.7.1.), что дает основание рассчитывать коєффициент корреляции.

Подставив приведенные в таблице 7.1 расчетные данные в формулу (7.1) получим значения коэффициента корреляции равные

Таблица 7.1.Исходные данные для расчёта коэффициента корреляции

.

№№

Производитель-ность, т/сутки

i)

Стоимость,

гр. (уi)

()

()

()х

()

1

2

3

4

5

6

1

20

6

3,9

-1,6

-6,24

2

12

10

-4,1

2,4

-4,34

3

15

8

-1,1

0,4

-0,44

4

17

6

0,9

-1,6

-1,44

5

13

9

-3,1

1,4

-4,34

6

24

4

7,9

-3,6

-28,44

7

21

5

4,9

-2,6

-12,44

8

16

7

-0,1

-0,6

-0,06

9

13

9

-3,1

1,4

-4,34

10

10

12

-6,1

4,4

-26,84

N=10

-44,72

Рис.7.1 Зависимость между производительностью и стоимостью продукции.

По формулам (7.2) и (7.3) рассчитаны ошибка и критерий достоверности

соответственно:

Расчетное значение критерия достоверности больше табличного значения при 8 степенях свободы и уровне значимости 0,01 равного 4,78, следовательно рассчитанный коэффициент корреляции достоверен.

7.2. Корреляционное отношение

Как уже отмечалось, коэффициент корреляции пригоден лишь для измерения прямолинейной связи. Если же зависимость между варьирующими величинами Х и У сильно отличается от прямолинейной регрессии, этот показатель оказывается неточным и применять его не следует. В таких случаях мерилом сопряженности изучаемых признаков служит корреляционное отношение,обозначаемое греческой буквой «эта» (ή).

В отличие от коэффициента корреляции отношение измеряет любую форму связи, притом измеряет двусторонне, поэтому и выражается не одним, а двумя коэффициентами - х/уиу/х.

Представление о характере связи между варьирующими величинами дают графики корреляционной зависимости. Как показатель сопряженности корреляционное отношение изменяется в пределах от 0 до 1, но в отличие от коэффициента корреляции не имеет знака.

При малом числе наблюдений корреляционное отношение вычисляется прямым способом, т.е. без разбивки вариант на классы, по следующим формулам:

(7.4)

(7.5)

Здесь сумма квадратов отклонений вариант от их средней арифметической;- сумма квадратов отклонений вариант от частной средней, т.е. средней арифметической не всего ряда вариант, а отдельных его значений, соответствующих определенным значениям вариант другого ряда, которые располагаются в возрастающем или убывающем порядке. Например, имеются следующие два ряда сопряженных значений каких-то признаков Х и У:(табл 7.2 )

Таблица 7.2. Ряды сопряженных значений

х

2

2

4

4

6

6

6

8

у

4

6

5

7

10

8

12

7

По данным, приведённымв таблице7.2,видно, что значения первого признака(X) разбиваются на четыре группы: 2, 4, 6 и 8. В первых двух группах по две одинаковых варианты, в третьей группе – три, а в четвертой – всего одна. По второму же признаку(Y) эти группы значений неодинаковы. Так, первые два варианта имеют значения 4 и 6. Если взять среднюю арифметическую этих значений, то она в равной мере будет соответствовать двум первым (одинаковым) значениям признакаX:(4 + 6): 2=5.Это и есть частная средняя арифметическая (y-01)YпоX.

Таким же способом находим величину второй частной средней:

y-02=(5+7): 2=6.

Для третьей группы значений частная средняя:

y-03=(10+8+12): 3=10.

В результате получается ряд частных средних арифметических по ряду Y, соответствующих определенным значениям рядаX: (табл. 7.3)

Таблица 7.3. Значение частных средних

X

2

2

4

4

6

6

8

8

Y

4

6

5

7

10

8

12

7

0

5

5

6

6

10

0

10

7

Из этого примера видно значения частных средних и методика их определения; в отличие от общих средних арифметических частные средние обозначим через x0иy0

При оценке степени сопряженности между варьирующими величинами Х и У как в случаях прямолинейной, так и при криволинейной зависимости приходится вычислять суммарные показатели связи. Одним из таких показателей по аналогии с коэффициентом корреляции можно назвать коэффициент криволинейной корреляции и обозначить знаком