logo
645145

Элементы теории линейной корреляции.

Во многих задачах требуется установить и оценить зависимость изучаемой случайной величины от одной или нескольких других величин. Случайные величины могут быть связаны либо функциональной зависимостью, либо зависимостью другого рода, называемой статистической, либо быть независимыми. Строгая функциональная зависимость реализуется редко, так как обе величины или одна из них подвержены еще действию случайных факторов, причем среди них могут быть и общие для обеих величин. В этом случае возникает статистическая зависимость.

Статистической называют зависимость, при которой изменение одной из величин влечет изменение распределения другой. В частности, статистическая зависимость проявляется в том, что при изменении одной из величин изменяется среднее значение другой; в этом случае статистическую зависимость называют корреляционной зависимостью или корреляцией. В отличие от функциональной зависимости корреляция, как правило, рассматривается тогда, когда одна из величин зависит не только от данной другой случайной величины, но и от ряда случайных факторов. Как известно, зависимость между двумя случайными событиями проявляется в том, что условная вероятность одного из них при наступлении другого отличается от безусловной вероятности. Пусть X и Y - некоторые случайные величины, mx и my - математические ожидания, а и дисперсии случайных величин X и Y соответственно. Тогда, величина

называется коэффициентом корреляции.

Коэффициент корреляции – числовая характеристика совместного распределения двух случайных величин, выражающая их взаимосвязь и обладающая следующими, очевидными, свойствами:

.

Если величины X и Y независимы, то . Обратное утверждение может оказаться неверным, о величинах, для которых говорят, что они некоррелированы. Коэффициент корреляции тогда и только тогда, когда величины X и Y связаны линейной зависимостью.

Пусть, далее для каждого возможного значения X определено условное математическое ожидание величины Y, тогда линейная функция

называется линейной регрессией величины Y по X, а ее график прямой линией регрессии Y по X. Аналогично

линейная регрессия величины X по Y.

Угловой коэффициент – прямой линии регрессии Y по X называется выборочным коэффициентом регрессии Y по X, .

Условным средним называют среднее арифметическое наблюдавшихся значений Y, соответствующих Х = х.

Условным средним называют среднее арифметическое наблюдавшихся значений X, соответствующих Y = y.

В математической статистики разработаны методы оценки коэффициентов, характеризующих корреляцию между случайными величинами. Совокупность таких методов называется корреляционным анализом. Корреляционный анализ статистических данных включает в себя:

1) Построение корреляционной таблицы;

2) Вычисление выборочного коэффициента корреляции по формуле , где - выборочные средние, -выборочные среднеквадратические отклонения признаков X и Y, а ni,j количество пар (xi,yj) в исследуемой выборке;

3) Построение корреляционного поля (нанесение на координатную плоскость выборочных точек (xi,yj);

4) Построение графика линейной регрессии.

Отметим, что линейная регрессия наилучшим образом приближает значения величины Y по значениям случайной величины X.

Мы рассмотрели оценку тесноты линейной корреляционной связи. Как оценить тесноту любой корреляционной связи?

Пусть данные наблюдений над количественными признаками Х и Y сведены в корреляционную таблицу. Можно считать, что тем самым наблюдаемые значения Y разбиты на группы; каждая группа содержит те значения Y, которые соответствуют определенному значению X. Найти групповые средние, внутригрупповую межгрупповую и общие дисперсии. Причем, как известно , и если Y связан с X функциональной зависимостью, то , а если Y связан с Х корреляционной зависимостью, то .

Отсюда видно, что чем связь между признаками ближе к функциональной, тем меньше и, следовательно, тем больше приближается к , а значит, отношение единице.

Для оценки тесноты линейной корреляционной связи между признаками в выборке служит выборочный коэффициент корреляции. Для оценки тесноты нелинейной корреляционной связи вводят новые сводные характеристики :

– выборочное корреляционное отношение Y к X;

– выборочное корреляционное отношение Х к Y.

Выборочным корреляционным отношением Y к Х называют отношение межгруппового среднеквадратического отклонения к общему среднему квадратическому отклонению признака Y: или в других обозначениях

.

Здесь ; , n – объем выборки (сумма всех частот); – частота значения x; признака X; – частота значения y признака Y; – общая средняя признака Y; – условная средняя признака Y. Аналогично определяется выборочное корреляционное отношение X к Y: .

Приведем свойства корреляционного отношения.

Свойство 1. Корреляционное отношение удовлетворяет неравенству ; .

Свойство 2. Если , то признак Y с признаком X корреляционной зависимость не связан. Аналогично, если , то X с Y корреляционной зависимость не связан. Наоборот, Если признак Y с признаком X корреляционной зависимость не связан, то , а если X с Y корреляционной зависимость не связан, то .

Свойство 3. Если ( ), то признак Y связан с признаком X (признак X связан с признаком Y) функциональной зависимостью.

Обратное утверждение также имеет место.

Свойство 4. Выборочное корреляционное отношение не меньше абсолютной величины выборочного коэффициента корреляции.

Свойство 5. Если выборочное корреляционное отношение равно абсолютной величине выборочного коэффициента корреляции, то имеет место точная линейная корреляционная зависимость.

Корреляционное отношение служит мерой тесноты связи любой, в том числе и линейной, формы. В этом состоит преимущество корреляционного отношения перед коэффициентом корреляции, который оценивает тесноту лишь линейной зависимости. Вместе с тем корреляционное отношение обладает недостатком: оно не позволяет судить, насколько близко расположены точки, найденные по данным наблюдений, к кривой определенного вида, например к параболе, гиперболе и т. д. Это объясняется тем, что при определении корреляционного отношения форма связи во внимание не принималась.