logo
серега курсач1

2.2. Применение и сравнение корреляционно-регрессионного метода на практике

Корреляционная связь между признаками проявляется не в индивидуальных случаях, а в массе случаев в среднем при большом числе наблюдений в форме тенденции.

Признаки по их значению в таких взаимосвязях делятся на два класса: признаки, обусловливающие изменение других, связанных с ними признаками, называются факторными (или экзогенными переменными), или просто факторами, а признаки, изменяющиеся под действием первых, факторных, называются результативными (или эндогенными переменными).

Статистическая связь двух признаков x и y называется парной корреляцией. Влияние же нескольких факторов на результативный признак y называется множественной корреляцией.

По направлению выделяются прямые и обратные связи (положительные и отрицательные корреляции):

- при прямых связях с увеличением признака x увеличивается и признак y (например, автоматизация труда способствует росту рентабельности производства),

- при обратных - с увеличением признака x признак y уменьшается (так, с увеличением уровня фондоотдачи снижается себестоимость единицы производимой продукции).

Для установления наличия корреляционной связи и формы регрессионной зависимости в случае парной корреляции широко используется графический метод построения диаграммы рассеяния, являющейся геометрическим местом точек с абсциссами, определяющимися значениями факторной переменной, и ординатами, которые определяются соответствующими значениями зависимой, результативной, переменной.

В качестве грубой количественной оценки корреляции используется коэффициенты корреляции рангов Спирмена и Кендалла, меняющиеся от -1 до +1, и чем ближе они по модулю к 1, тем теснее зависимость.

Ранг - это порядковый номер единицы совокупности в ранжированном ряду. Ранжировать оба признака необходимо в одном и том же направлении: либо от меньших значений к большим, либо наоборот.

Идея использования ранговых коэффициентов состоит в следующем: если проранжировать совокупность по двум признакам, то полное совпадение рангов означает максимально тесную прямую связь, а полная противоположность рангов - максимально тесную обратную связь.

Ранговый коэффициент Спирмена рассчитывается согласно формуле:

,

где n - количество ранжируемых признаков (показателей, испытуемых);

D - разность между рангами по двум переменным для каждого испытуемого;

 - сумма квадратов разностей рангов.

Ранговый коэффициент корреляции Кендалла использует несколько другую методику вычислений и определяется согласно формуле:

, где P(p) — число совпадений, P(q) — число инверсий, N — объем выборки

В упрощенном виде формулу коэффициента корреляции Кендалла можно записать как:

При наличии связанных рангов формула изменяется с учетом поправки на связанные ранги:

,

где P(p) — число совпадений, P(q) — число инверсий, N — объем выборки, — поправка на связи рангов переменной X, — поправка на связи рангов переменной Y

,

где i — количество групп связей по X, — численность группы X

,

где i — количество групп связей по Y, — численность группы Y

Здесь - сумма положительных и отрицательных баллов (фактическая сумма рангов), где P - общая сумма числа рангов для каждого значения более высокого порядка (эти баллы учитываются со знаком «плюс»), Q - общая сумма числа рангов следующих для каждого значения, меньших по значению (эти баллы учитываются со знаком «минус»).